🌘 Introduction
Cet article de blog s’inspire d’une présentation donnée à la journée thématique de gestion des données pour professionnels de recherche en 2023 à l’Université Laval. Il vise à démystifier les principes FAIR. Il souligne également leur importance dans le paysage actuel de la recherche.
L’objectif principal des principes FAIR est de rendre les données de recherche Facilement Accessibles, Interopérables et Réutilisables. Ceci s’applique aux individus et aux machines. Dans le paysage actuel de la recherche, nous sommes confrontés à plusieurs défis liés aux données.
Ces défis incluent leur volume massif, leur complexité croissante, et la difficulté à trouver ce qui existe déjà. Les enjeux liés à leur déplacement et leur stockage sont aussi importants. Les principes FAIR offrent un cadre pour relever ces défis. Ils maximisent la valeur des données scientifiques.
🌘 Que signifie FAIR ?
FAIR est un acronyme pour Findable (Découvrable), Accessible, Interoperable (Interopérable), Reusable (Réutilisable). Ces principes visent à améliorer la gestion et la réutilisation des données scientifiques. Ce ne sont pas des normes techniques strictes. Ils constituent plutôt un ensemble de lignes directrices pour la publication et la gestion des données.

Les principes FAIR ont été définis par Wilkinson, M. D. et al. (2016). Cet article est considéré comme fondateur. Ils s’inspirent de la Définition du Savoir Libre de l’Open Knowledge Foundation. Cette fondation promeut l’ouverture des connaissances sous toutes ses formes.
🌘 Les enjeux actuels avec les données
Avant de plonger dans les détails de chaque principe FAIR, il est essentiel de comprendre les défis. La communauté scientifique est confrontée à ces défis en matière de gestion des données. Ces enjeux soulignent la nécessité d’adopter des pratiques comme celles proposées par FAIR.
🌘 Données massives
Le concept des “données massives” (Big Data) est souvent résumé par les “5 V” :
- Volume : La quantité gigantesque de données générées. Elle dépasse les capacités des outils traditionnels de traitement. Une règle commune ici est de dire que ça prend plus qu’un ordinateur de bureau pour les traiter.
- Variété : La diversité des types et formats de données (structurées, semi-structurées, non structurées). Cela rend leur intégration complexe et nécessite souvent de devoir utiliser des techniques de programmation ou des outils d’extraction de texte et d’images.
- Vélocité : La vitesse à laquelle les données sont produites et doivent être traitées. Lorsqu’on travaille avec des appareils de mesure et des capteurs, ou avec des données en diffusion continue, c’est souvent en temps réel.
- Véracité : La fiabilité et la qualité des données. C’est un défi majeur compte tenu de leur volume et de leur variété de devoir aussi assurer leur qualité.
- Valeur : Le potentiel des données à générer des connaissances et des bénéfices. Cela est possible à condition qu’elles soient bien gérées et exploitées de manière durable et pérenne.

🌘 Complexité des données
Au-delà du volume, la complexité intrinsèque des données de recherche pose des défis significatifs :
- Elles sont souvent multidisciplinaires. Elles nécessitent que tu aies des connaissances de plusieurs domaines pour être comprises et utilisées correctement.
- Elles sont générées par des méthodes et instruments complexes. Cela rend leur interprétation difficile sans documentation adéquate.
- Leur utilisation requiert des logiciels et du matériel spécifiques. Cela limite l’accès et la réutilisation.
- Elles sont soumises à un environnement légal et éthique strict. Par exemple, les données personnelles ou sensibles. Cela complique leur partage.
🌘 Trouver ce qui existe déjà
La recherche d’informations scientifiques est un processus bien établi pour les articles. Des outils comme Sofia (bibliothèque de l’Université Laval), Google Scholar ou arXiv facilitent cette recherche. Cependant, trouver les données associées à ces articles est souvent un défi majeur. Les données sont rarement citées de manière standardisée.
Même lorsque les données sont trouvées, leur ouverture peut révéler des surprises. Ces surprises concernent le format, la documentation ou la qualité. Cela rend leur réutilisation difficile.
🌘 Déplacer et stocker les données
Le stockage et le déplacement des données ont évolué. Chaque solution présente ses propres défis :
- Médias physiques : Livres, microfiches, VHS, disques. Ces supports souffrent de dégradation physique et d’obsolescence technologique. Cela menace la pérennité des données.
- Logiciels partagés (Cloud) : Comme Microsoft 365 (SharePoint, Teams). Bien que pratiques pour la collaboration, ils posent des problèmes de pérennité. La dépendance au fournisseur en est un exemple. Ils posent aussi des problèmes d’authenticité, comme les versions multiples et le manque de traçabilité. Ils peuvent aussi rapidement devenir un “fouillis” sans une gouvernance claire.
- Serveurs spécialisés : (VALERIA - un service de l’Université Laval pour l’entreposage de données de recherche, Alliance (Calcul Canada) - une organisation nationale de recherche offrant des ressources de calcul et de stockage, SFTP, GLOBUS, S3, GitLab, Pixel/Subversion). Ces solutions offrent plus de robustesse. Cependant, elles présentent des enjeux d’accès, de permissions et de complexité technique. Ces enjeux nécessitent une expertise spécifique.
🌘 Qu’est-ce qui est concerné par FAIR?
Les principes FAIR s’appliquent à tous les actifs numériques produits par des activités de recherche. Cela inclut les données brutes ou traitées. Cela comprend, sans s’y limiter :
- Données quantitatives et qualitatives (tableaux, bases de données, enquêtes)
- Figures et multimédia (./images, vidéos, audio)
- Texte (articles, thèses, rapports)
- Code informatique (scripts d’analyse, logiciels)
- Protocoles de recherche (méthodologies détaillées)
- Plans et instructions de fabrication (pour la reproductibilité des expériences)
En bref, tout ce qui contribue à la compréhension et à la reproductibilité d’une recherche devrait être rendu FAIR.
🌘 Findable (Découvrable)
Le premier principe, “Découvrable”, est fondamental. Si une donnée ne peut pas être trouvée, elle ne peut pas être réutilisée. Pour qu’une donnée soit découvrable, elle doit posséder :
-
Un identifiant unique et persistant : C’est une référence stable. Elle permet de retrouver la donnée dans le temps.
- DOI (Digital Object Identifier) : Un identifiant standardisé pour les actifs numériques de recherche. Il garantit leur persistance et leur citabilité (DOI Handbook).
- URI (Uniform Resource Identifier) : Un identifiant générique pour tout ce qui est accessible sur le web. Cela inclut les fichiers, pages web, concepts et entités. L’URI est le fondement du web sémantique (web 3.0). Ce dernier vise à rendre les données lisibles par les machines.
-
Des métadonnées riches et descriptives : Les métadonnées sont des “données sur les données”. Plus elles sont détaillées, plus elles renseignent les moteurs de recherche. Elles informent aussi les utilisateurs potentiels sur le contenu, le contexte et la qualité des données.
- Des guides et vocabulaires standardisés comme Schema.org (pour structurer les données sur le web), Wikidata (une base de connaissances collaborative) et DataCite (pour les métadonnées de données de recherche) sont essentiels. Ils permettent de créer des métadonnées interopérables.
-
Une indexation appropriée dans des ressources interrogeables : Les données doivent être enregistrées et indexées dans des dépôts de données ou des catalogues. Ces ressources permettent leur recherche.
- Dépôts de données : Plateformes dédiées au stockage et au partage de données de recherche. On peut citer différentes plateformes. Parmi celles-ci figurent:
- Borealis, le dépôt de données de recherche canadien,
- Dataverse, une plateforme open source pour le partage de données,
- Zenodo, un dépôt généraliste de l’OpenAIRE et du CERN,
- CKAN, une plateforme open source pour les portails de données ouvertes, utilisée par plusieurs gouvernements dont le Canada, le Québec et la Ville de Montréal.
- Moteurs de recherche spécialisés : Un exemple, c’est Google Datasets. Il indexe les jeux de données disponibles publiquement.
- Plateformes grand public : Bien que moins structurées, des plateformes comme Data World (un dépôt de données commercial) et Kaggle (connu pour les concours de science des données) peuvent aussi rendre les données découvrables. Cependant, la documentation et les métadonnées peuvent être limitées.
- Dépôts de données : Plateformes dédiées au stockage et au partage de données de recherche. On peut citer différentes plateformes. Parmi celles-ci figurent:
🌘 Accessible
Une fois les données trouvées, elles doivent être accessibles. Cela ne signifie pas nécessairement qu’elles doivent être ouvertes à tous. Elles doivent être accessibles sous des conditions clairement définies.
L’accessibilité des données repose sur :
- Des métadonnées normalisées et un identifiant unique (URI) : Comme mentionné précédemment, ces éléments permettent la découverte et l’accès avec des outils automatisés tel que des moteurs de recherche.
- Une licence d’utilisation claire et explicite : La licence définit les conditions de réutilisation des données. Des licences ouvertes comme l’Open Database License ou les Creative Commons License sont fortement recommandées. Elles maximisent la réutilisation.
- Un protocole d’accès aux métadonnées : Ce protocole doit être :
- Libre : Aucune restriction d’usage ou de coût.
- Ouvert : Sa spécification est documentée et publiquement disponible.
- Universel : Utilisable avec plusieurs médias et systèmes.
Des exemples incluent HTTPS, FTP, ou même des méthodes plus traditionnelles comme le courriel, le téléphone ou la poste pour des données très sensibles. Les permissions (authentification et autorisation) doivent être gérées de manière transparente.
- Des métadonnées indépendantes des données : Il est essentiel que les métadonnées persistent. Cela est vrai même si les données elles-mêmes expirent, sont supprimées ou deviennent inaccessibles pour des raisons de confidentialité. Ces métadonnées publiques servent de “preuve d’existence”. Elles sont aussi un point de contact pour d’éventuelles demandes d’accès aux données confidentielles.
🌘 Interoperable (Interopérable)
L’interopérabilité est la capacité des données et des systèmes à échanger et à interpréter des informations. C’est un pilier essentiel pour la combinaison de jeux de données provenant de sources différentes.
L’interopérabilité repose sur :
-
Une représentation des connaissances formalisée, accessible, partagée et applicable à plusieurs contextes. Cela implique l’utilisation de vocabulaires et de schémas de données communs.
-
Des formats de données ouverts et standardisés : Privilégiez les formats non propriétaires et bien documentés. Par exemple, CSV (pour les données tabulaires simples), JSON (pour les données structurées et semi-structurées) ou XML (pour les données hiérarchiques).Je conseille d’éviter les “fichiers Excel Crayola”. J’utilise ce terme pour désigner les feuilles de calcul mal structurées. Elles ont souvent des couleurs et des mises en forme excessives, peu de structure de données définies et reposent sur des concepts non-documentés pour leur lisibilité. Cela rend l’extraction et l’automatisation des données presque impossibles. Le site Junk Charts illustre bien les pièges de la mauvaise visualisation des données. Le Référentiel général d’interopérabilité (France) est une excellente ressource pour les standards d’interopérabilité.

- L’utilisation de vocabulaires contrôlés, de taxonomies et d’ontologies : Ces outils sont essentiels pour l’interopérabilité sémantique. C’est la capacité des machines à comprendre le sens des données.
- Taxonomie : Une classification hiérarchique de concepts. Elle est initialement utilisée en biologie, mais applicable à de nombreux domaines.
- Ontologies : Des représentations formelles et explicites de concepts et de leurs relations au sein d’un domaine. Elles permettent une interprétation automatique des données. Des ressources comme BioPortal (un portail d’ontologies biomédicales) et l’EU Semantic Interoperability Catalogue sont des exemples de répertoires d’ontologies. Le logiciel Protégé est un éditeur d’ontologies largement utilisé dans la recherche. Un enjeu souvent rencontré est que le papier décrivant une ontologie existe. Cependant, l’ontologie elle-même n’a jamais été publiée ou rendue accessible. Cela limite son interopérabilité.

Illustration d’une hiérarchie taxonomique, un exemple de vocabulaire contrôlé.
🌘 Reusable (Réutilisable)
Le principe de réutilisabilité est l’aboutissement des trois premiers. Des données trouvables, accessibles et interopérables sont des données qui peuvent être réutilisées efficacement.
Pour que les données soient réutilisables, elles doivent avoir :
-
Une description riche et détaillée : Au-delà des métadonnées de base, une description riche fournit le contexte nécessaire à la réutilisation. Cela inclut :
- Le pourquoi les données ont été collectées (objectif de la recherche).
- Les enjeux et limitations des données (biais, portée, qualité).
- Les dates, conditions, personnel, paramètres de collecte (traçabilité).
- La distinction entre données brutes ou traitées.
- L’explication des noms des variables (si ce n’est pas déjà dans un vocabulaire contrôlé).
- La version des données. Cela assure la traçabilité des modifications.
-
Une licence d’utilisation claire et accessible : C’est l’aspect d’interopérabilité légale. La licence doit être facilement trouvable et compréhensible. Les utilisateurs sauront ainsi comment ils peuvent réutiliser les données.
-
La source et le lignage clairs : Il est essentiel de documenter l’origine des données. Il faut aussi documenter toutes les transformations qu’elles ont subies. Cela inclut :
- Les références aux publications ou autres sources.
- Le lignage (qui, quand, comment, avec quoi les données ont été produites ou modifiées).
- Le code informatique de traitement utilisé pour générer ou transformer les données.
- L’encodage des caractères (ex: ISO-8859-1, UTF-8). Ces normes permettent d’éviter les problèmes d’affichage et d’interprétation.
-
Des normes de pratique du domaine : Mentionner quel standard de métadonnées ou protocole spécifique au domaine suivent les données. Par exemple, DICOM en médecine, FITS en astronomie. Cela facilite la compréhension et l’intégration par les spécialistes du domaine.
🌘 Pourquoi appliquer les principes FAIR ?
L’application des principes FAIR n’est pas une simple formalité. C’est une démarche qui offre de nombreux avantages pour la recherche et la société dans son ensemble.
-
Qualité des données : En structurant et documentant les données selon les principes FAIR, on augmente intrinsèquement leur qualité. Cela inclut :
- Des données complètes et intègres.
- Des sources vérifiables.
- La validité (respect des domaines de valeurs).
- La temporalité (suivi du cycle de vie des données).
-
Revalorisation : Les données FAIR sont plus facilement découvrables et réutilisables. Cela permet de créer de nouvelles collections de données de recherche. On peut les combiner pour des analyses plus larges. On peut aussi en extraire une valeur ajoutée qui n’était pas prévue initialement.
-
Pérennité : Les principes FAIR contribuent à assurer la pérennité des résultats de recherche et des publications. Des données bien documentées et accessibles facilitent la reproductibilité des études. Elles garantissent une plus grande autonomie dans l’usage des données de recherche. Cela réduit la dépendance aux auteurs originaux.
-
Méta-analyses : L’interopérabilité est un atout majeur pour les méta-analyses. Elle permet de combiner et d’analyser des jeux de données provenant de différentes sources. Cela évite les conversions complexes ou la recherche d’équivalences de vocabulaire. Cela accélère ainsi la découverte scientifique.
-
Cycle de vie des données : Les principes FAIR s’intègrent naturellement dans le cycle de vie des données de recherche. Cela va de la génération à l’interprétation.

Le cycle de vie des données. Il illustre les différentes étapes où les principes FAIR peuvent être appliqués.
Ils facilitent :
- La gestion de projet de recherche.
- La gestion des consentements et la gouvernance des données.
- L’élaboration de plans de gestion de données (PGD - Plan de Gestion de Données) robustes.
- La mise à jour automatisée des résultats. Cela est possible grâce à des données structurées et interopérables.
- Transparence : L’adoption des principes FAIR favorise une plus grande transparence de la recherche. Cela contribue à :
- La reddition de compte et la justification des demandes de financement public.
- L’augmentation de la valeur et de l’impact à long terme de la recherche.
- La réduction des rétractations d’articles dues à des problèmes de données.
- L’amélioration de l’opinion publique et de l’acceptabilité sociale de la recherche. C’est particulièrement importent dans des domaines sensibles comme les données médicales (ex: recherche sur le cancer).
🌘 Références
- Wilkinson, M. D. et al. The FAIR Guiding Principles for scientific data management and stewardship. Sci. Data 3:160018 doi: https://dx.doi.org/10.1038/sdata.2016.18 (2016).
- Open Knowledge Foundation. Définition du Savoir Libre. Version: 1.1 https://opendefinition.org/od/1.1/fr/
- Go FAIR. FAIR Principles https://www.go-fair.org/fair-principles/
- OpenAIRE. How to make your data FAIR. https://www.openaire.eu/how-to-make-your-data-fair