Tables de correspondance – Données de santé mentale de l’ISQ

Introduction

Dans cet article, je vais vous présenter le concept de tables de correspondance. D’une part, je vous communique leur définition et leur rôle. Puis, je discuterai de leur usage lors de la création d’une base de données analytique. En particulier, lorsque nous exploitons des sources de données variées.

Notre objectif ici est de concevoir des tables de correspondance entre les données démographiques et celles sur l’impact de la pandémie de COVID-19 sur la santé mentale de la population québécoise. Ces données proviennent de l’Institut de la statistique du Québec (ISQ).

Qu’est-ce qu’une table de correspondance ?

Une table de correspondance sert à relier les valeurs des attributs de deux tables. Celles-ci proviennent de sources distinctes, et ont souvent des domaines différents pour décrire les même concepts. Leur rôle est de permettre d’intégrer efficacement ces tables dans un même entrepôt de données. Ça permet d’enrichir les analyses statistiques en ajoutant des dimensions d’analyse.

Quand utiliser une table de correspondance ?

Dans le cas qui nous intéresse, les données démographique représentent le sexe avec une domaine de valeurs numérique (1,2 et 3). Cette variable se nomme sexe dans la suite de l’exemple. Les données de l’étude sur la santé mentale, par contre, ont un domaine de valeurs en caractères (Hommes, Femmes et Total). Cette variable se nomme ici segment_sexe.

Comme les domaines sont différents, nous devons utiliser une table de correspondance.

sexe segment_sexe
1 Hommes
2 Femmes
3 Total

Cette table, insérée dans un modèle relationnel, s’appelle un pont et a la particularité d’avoir deux clés primaires.

Modèle entité-relation pour la table de correspondance représentée par le pont match_sexe
Modèle entité-relation pour le pont match_sexe

Les deux représentations sont valables. Pour autant qu’elles soient documentées dans un référentiel qui est accessible à toutes et tous. C’est le rôle de la gouvernance de données en entreprise.

Devrait-on éviter l’usage de tables de correspondance ?

Dans la conception de bases de données, il est important de trouver le bon compromis entre la performance et l’expérience d’utilisation. En effet, des décisions en apparence banales peuvent grandement améliorer l’efficacité et l’accès. En particulier, ici, comme nous sommes dans un contexte de données ouvertes disponibles à la population.

Dans ce projet, j’ai choisi d’opter pour les valeurs de segment_sexe, qui sont facilement interprétables. J’aimerais bien que Institut statistique du Québec, qui a produit les deux sources, se dote d’un référentiel. De cette façon, elle pourrait offrir des jeux de données et des publications qui utilisent des domaines uniformes !

Les tables de correspondance sont un mal nécessaire pour unifier les données provenant de diverses sources. Mais, lorsqu’elles proviennent de la même source, il serait préférable d’éviter d’avoir à les utiliser !

Articles connexes

En savoir plus