Introduction
Je me lance aujourd’hui avec ce premier billet technique sur un sujet d’actualité: la surmortalité causée par le COVID-19. Sujet de controverse dans l’opinion publique, c’est selon moi la réelle mesure de la gravité de la pandémie, car elle est indépendante des décisions politiques ou des volumes de tests.
Comment mesurer la surmortalité
En construisant un modèle de séries chronologiques et en mesurant la déviation des réalisations (cas réels) en dehors de la prédiction, nous obtenons la surmortalité (ou dans le cas contraire, la sous-mortalité). Nous pouvons aussi calculer l’excès au delà d’un intervalle de confiance.
Je cherche ici à déterminer si les statistiques de décès attribués à la COVID-19 sont réalistes. Mon approche se base sur les données de la mortalité hebdomadaire colligées par l’Institut de la Statistique du Québec, qui serviront à construire le modèle et à le tester, ainsi que les données quotidiennes de décès liés à la COVID-19 compilées par Isha Berry et le COVID-19 Canada Open Data Working Group, qui contiennent les cas de décès identifiés à la COVID-19.
Observation des données
Les données hebdomadaires de décès vont servir de base afin de construire un modèle de séries chronologiques. Voici l’historique de données que nous utiliserons. Ces données sont combinées selon le sexe pour des fins de simplification des analyses.
Les données de l’année 2020 seront utilisées comme données de test.
La dernière semaine considérée dans ces données correspond à la semaine CDC 43 de l’année 2020.
Nous voulons prédire le nombre de décès qui auront lieu dans les 43 premières semaines de 2020 à partir des observations des 521 semaines précédentes. Ensuite, nous comparerons les résultats obtenus aux statistiques officielles afin d’estimer la surmortalité liée à l’épidémie de COVID-19.
Décomposition de la série chronologique
Ce graphique illustre une décomposition de la série chronologique selon la méthode classique de la moyenne mobile.
On remarque une forte saisonnalité due à la saison hivernale où on enregistre plus de décès, ce qui correspond aussi aux pics de fréquentation des hopitaux.
Modèle TBATS pour prédire les décès de 2020-2021
On effectue les prédictions avec le modèle TBATS (Exponential smoothing state space model with Box-Cox transformation, ARMA errors, Trend and Seasonal components), une méthode pour les séries intégrées (tendance positive) avec des motifs de saisonnalité irréguliers.
Test de la prédiction
On effectue une superposition des données observées aux données prédites, ce qui nous permet de constater l’erreur de prédiction du modèle de séries chronologique.
Portrait de la surmortalité
Il y a eu, durant la période de prévision, 5068 décès additionnels par rapport aux prévisions du modèle. C’est une moyenne de 118 décès par semaine sur la période observée.
On ajoute les intervalles de confiance à 80% et 95% sur l’erreur de prédiction du modèle. Je calcule ces intervalles de confiance en soustrayant la borne inférieure au nombre observé pour obtenir la borne supérieure de l’erreur et vice-versa.
Comparaison de la surmortalité calculée avec les données du MSSS
Dans cette section, nous utiliserons les données compilées par le MSSS sur les décès liés à la COVID-19 afin de déterminer si la majorité de la surmortalité peut être attribuée à la pandémie. Afin de convertir les données du MSSS sur la même base que les données de l’ISQ, il faut identifier la semaine CDC correspondante.
Il est aussi important ici de noter que nous utilisons la date de rapport du décès qui peut être différente de celle de la date réelle du décès. Il faut donc s’attendre à un certain décalage entre les données de l’ISQ et du MSSS de l’ordre d’une à deux semaines, tel qu’il est observé fréquemment dans les annonces dans les médias.
On remarque que les deux courbes correspondent sensiblement aux mêmes nombres de décès, mais avec un décalage dans les déclarations de décès liés à la COVID-19 auprès du MSSS. À partir de ces observations, on peut donc en tirer la conclusion que la surmortalité observée est principalement due à la pandémie de COVID-19. Il n’y aurait donc pas de surattribution des décès.
Références
- Nombre hebdomadaire de décès au Québec, 2010-2020
- TBATS model (Exponential smoothing state space model with Box-Cox transformation, ARMA errors, Trend and Seasonal components)
- Berry I, Soucy J-PR, Tuite A, Fisman D. Open access epidemiologic data and an interactive dashboard to monitor the COVID-19 outbreak in Canada. CMAJ. 2020 Apr 14;192(15):E420. doi: https://doi.org/10.1503/cmaj.75262