Potion Bottle Icon Manuel d'alchimie du code Potion Bottle Icon

Tables de correspondance pour l'analyse des données de santé mentale de l'ISQ

- 632 mots - Temps de lecture estimé: 4 minutes

Offre de formation

Crystal Ball IconUtiliser des chatbots LLM localement et protéger ses donnéesCrystal Ball Icon

Utilise l'IA sans envoyer les données de ta clientèle sur des serveurs américains. Fais tourner des modèles directement sur ton ordinateur, en toute confidentialité. Conforme à la loi 25.

Réconcilie IA et vie privée — Inscris-toi

🌘 Introduction

Dans cet article, je vais vous présenter le concept de tables de correspondance. D’une part, je vous communique leur définition et leur rôle. Puis, je discuterai de leur usage lors de la création d’une base de données analytique. En particulier, lorsque nous exploitons des sources de données variées.

Notre objectif ici est de concevoir des tables de correspondance entre les données démographiques et celles sur l’impact de la pandémie de COVID-19 sur la santé mentale de la population québécoise. Ces données proviennent de l’Institut de la statistique du Québec (ISQ).

🌘 Qu’est-ce qu’une table de correspondance ?


Sun Face IconQu’est-ce qu’une table de correspondance en modélisation de données ?Sun Face Icon


Une table de correspondance (ou pont) relie les valeurs d’attributs de deux tables provenant de sources distinctes ayant des domaines différents pour le même concept. Elle possède deux clés primaires et permet d’intégrer des données hétérogènes dans un entrepôt analytique. Exemple : codes de sexe numériques (1,2,3) et textuels (Hommes, Femmes, Total) de l’ISQ.

Une table de correspondance sert à relier les valeurs des attributs de deux tables. Celles-ci proviennent de sources distinctes, et ont souvent des domaines différents pour décrire les même concepts. Leur rôle est de permettre d’intégrer efficacement ces tables dans un même entrepôt de données. Ça permet d’enrichir les analyses statistiques en ajoutant des dimensions d’analyse.

🌘 Quand utiliser une table de correspondance ?

Dans le cas qui nous intéresse, les données démographiques représentent le sexe avec une domaine de valeurs numérique (1,2 et 3). Cette variable se nomme sexe dans la suite de l’exemple. Les données de l’étude sur la santé mentale, par contre, ont un domaine de valeurs en caractères (Hommes, Femmes et Total). Cette variable se nomme ici segment_sexe.

Comme les domaines sont différents, nous devons utiliser une table de correspondance.

sexe segment_sexe
1 Hommes
2 Femmes
3 Total

Cette table, insérée dans un modèle relationnel, s’appelle un pont et a la particularité d’avoir deux clés primaires.

Modèle entité-relation pour la table de correspondance match_sexe illustrant les relations entre les données de sexe

Modèle entité-relation pour le pont match_sexe

Les deux représentations sont valables. Pour autant qu’elles soient documentées dans un référentiel qui est accessible à toutes et tous. C’est le rôle de la gouvernance de données en entreprise.

🌘 Devrait-on éviter l’usage de tables de correspondance ?

Dans la conception de bases de données, il est important de trouver le bon compromis entre la performance et l’expérience d’utilisation. En effet, des décisions en apparence banales peuvent grandement améliorer l’efficacité et l’accès. En particulier, ici, comme nous sommes dans un contexte de données ouvertes disponibles à la population.

Dans ce projet, j’ai choisi d’opter pour les valeurs de segment_sexe, qui sont facilement interprétables. J’aimerais bien que Institut statistique du Québec, qui a produit les deux sources, se dote d’un référentiel. De cette façon, elle pourrait offrir des jeux de données et des publications qui utilisent des domaines uniformes !

Les tables de correspondance sont un mal nécessaire pour unifier les données provenant de diverses sources. Mais, lorsqu’elles proviennent de la même source, il serait préférable d’éviter d’avoir à les utiliser !

🌘 Articles connexes

🌘 En savoir plus

Offre de service

Shooting Stars IconConfiguration Express — 1 heure — 245 $Shooting Stars Icon

Un problème de configuration qui te semble insurmontable ? Environ une heure, en moyenne, je configure tes courriels, DNS, accès et conformité loi 25. Les suivis sont inclus pour valider ou corriger des configurations additionnelles au besoin. Tu repars avec une solution fonctionnelle, pas un devis.

Règle ton problème maintenant — 245 $
Abonne-toi au fil RSS pour ne rien manquer.

Étiquettes