Caution: Bad Data

Pour mon projet sur la situation de nos réseaux de santé et d'éducation, je maintiens dans ma base de données une table avec les données de mortalité provenant de l'Institut statistique du Québec. Je suis, en janvier 2021, en train d'exécuter mes scripts pour me rendre compte que les données ne se mettent plus à jour. Voici, en quelques éléments, ce qui cloche.

  1. Le nom de domaine a changé, il était auparavant stat.gouv.qc.ca, il est maintenant statistique.quebec.ca
  2. Je parcours le site avec les adresses que j'avais dans ma documentation. On dirait que la structure entière du site web y est passée. Aucune redirection d'URL depuis les anciennes adresses vers les nouvelles n’est en place pour les pages web que j'ai testées, même pas avec un lien temporaire et un message d'avertissement. Une bête erreur 404.
  3. Le format du fichier qui est maintenant mis à jour a changé. On part d'un fichier CSV vers un fichier XLSX. L'ancien fichier CSV existe toujours et il y a bien une redirection HTTP 301 vers celui-ci, mais il n'est plus mis à jour depuis le 13 novembre 2020. Ce qui explique que mes données ne se mettaient plus à jour.
< HTTP/1.1 301 Moved Permanently
< Location: https://statistique.quebec.ca/docs-ken/multimedia/DecesSemaine_QC_2010-2020_Sexe.csv

Le fichier est d'ores et déjà un fichier bâtard qui requiert plusieurs traitements avant d'être utilisable, mais on se retrouve maintenant avec un fichier qui contient des fioritures, de la mise en page et des graphiques. Bref, on s'éloigne de plus en plus des standards des données ouvertes. Selon l'échelle "5 star" de Tim Berners-Lee, on recule du niveau 3 étoiles au niveau 2 étoiles en terme de qualité.

Information around Tim Berners-Lee's 5-star Open Data Plan

Le gouvernement du Québec et ses différents organismes sont notoires pour la création de liens morts, ce qui fait perdre de la valeur à de nombreux travaux de scientifiques et journalistes.

On doit sérieusement se demander quelles sont les motivations derrière de tels changements pour une entité qui a pour responsabilité de fournir des données accessibles aux organisations et à la population. En 2021, un minimum de considération dans les meilleures pratiques de données ouvertes serait de mise, surtout de la part d'une organisation qui nage dans les données à longueur d'année !

Tout producteur de données devrait savoir depuis bien longtemps que celles-ci sont consommées majoritairement par des logiciels et non par des humains. Sans compter que le même gouvernement a publié des lignes directrices sur la publication de données ouvertes qu'il ne respecte pas. Bref, c'est un autre exemple du virage numérique houleux de nos institutions publiques québécoises.

Consolons-nous au moins en nous disant que ce ne sont pas des fax numérisés comme ce que produit le Ministère de la Santé et des Services sociaux dans ses demandes d'accès à l'information, qui correspondent au niveau 1 étoile de qualité.

Références utiles:

  • Oury, Clément. "L’archivage du Web: bibliothèques et archives à la croisée des chemins." Archives 47.1 (2017): 107-124. Accédé le 16 janvier 2021. URL: https://doi.org/10.7202/1041828ar

  • Tim Berners-Lee, the inventor of the Web and Linked Data initiator, suggested a 5-star deployment scheme for Open Data. URL: https://5stardata.info/en/

Source des images:

Article précédent Article suivant