Je te vois venir. Tu te demandes pourquoi je parle de censure littéraire sur mon blog !
Et bien voilà ! Je veux te donner un exemple de la puissance de l’analyse de données pour comprendre un enjeu de société.
Je te montre aussi comment aller chercher des données supplémentaires sur le web pour répondre aux questions que tu te poses sur ton marché, sur ton positionnement ou sur les tendances politiques. Tout ça, avec des visualisations de données qui pourront en impressionner plusieurs.
Sinon, c’est la St-Valentin, alors quelle bonne excuse pour faire des nuages de mots en forme de cœur !
On y va !
Un appel à la censure littéraire
Le 25 octobre 2021, le sénateur républicain du Texas Matt Krause a communiqué une liste de livres qu’il souhaiterait retirer des écoles au département de l’éducation de son État. Il leur demandait lesquelles parmi celles énumérées étaient disponibles dans les écoles, et quel budget a été utilisé pour leur achat. Un cas flagrant de tentative de censure littéraire.
La liste a été en partie associée à une interdiction de l’enseignement de la théorie critique de la race. C’est une théorie contestée (dans les milieux conservateurs) selon laquelle les injustices raciales se poursuivent dans les institutions selon des jeux de pouvoir, même si elles sont de jure interdites. C’est ce qu’on appelle, en bon québécois, le racisme systémique.
Mais, comme tu pourras le lire par la suite, on conclura que c’est beaucoup plus large, et aussi beaucoup plus simple que ça !
Quelques statistiques
Danika Ellis, une contributrice au magazine littéraire en ligne Book Riot a publié une étude de cette liste de livres. Je me suis intéressé à cette analyse plutôt marquante. Celle-ci recense quelques statistiques au sujet de cette liste:
- 76,5% concernent l’éducation sexuelle ou les luttes LGBTQ+
- 8,3% ont comme sujet principal la race et le racisme.
- 5,8% concernent la grossesse et l’avortement
- 71,3% sont adressés aux adolescentes et adolescents et jeunes adultes
Nous avons donc devant nous une liste qui s’adresse surtout aux jeunes adultes et qui concerne la sexualité et l’identité de genre au sens large. Bien entendu, il est question d’intersectionnalité entre l’identité de genre, les personnes racisées et le contexte socio-économique. Donc, il est important de retenir que ces statistiques couvrent le thème principal de chaque oeuvre, dans un objectif de classification.
En utilisant la liste fournie par l’article de Book Riot, nous avons toutes les années de publication sous la main. Alors visualisons ces données pour avoir une idée de la distribution de la date de publication des ouvrages.
On remarque que la plupart des livres ont été publiés après 1990, et particulièrement dans les 10 dernières années, dont une proportion importante dans les 2 dernières années, qui ont été particulièrement chargées d’événements politiques aux États-Unis.
J’étais curieux d’en savoir plus et de découvrir le champ lexical de ces livres. N’ayant pas accès au contenu de ceux-ci, j’ai donc entrepris d’utiliser les descriptions disponibles sur le web. Celles que j’ai obtenues sont souvent similaires aux quatrièmes de couverture. C’est donc à partir de celles-ci que j’ai débuté mon analyse.
Une bonne lecture de la situation
Afin d’avoir une bonne lecture de la situation, j’avais besoin d’obtenir davantage d’information sur les livres en question, d’une manière que je pouvais automatiser. Je ne voulais définitivement pas extraire toutes les informations manuellement sur près de 850 livres !
J’ai donc consulté le site web GoodReads, un réseau social de critique littéraire. À ma grande surprise, les livres de la liste de Matt Krause ont déjà été identifiés par Katrine Engelhardt Thomsen dans une collection de listes de lectures.
Je n’ai donc maintenant qu’à extraire toutes les données depuis cette page. Pour de faire, je vais utiliser la technique nommée le « moissonnage du web » (web scraping en anglais) pour extraire toutes les descriptions de chacun des livres de chacune des 9 listes (les listes étant limitées à 100 livres sur ce site).
Analysons le contexte de la censure littéraire
J’utilise maintenant différents outils du langage de programmation Python pour nettoyer les données, extraire les descriptions et ensuite, identifier les mots porteurs de sens. Pour voir tous les détails de cette analyse, je t’invite à lire cet article plus technique.
Voici un aperçu des résultats de l’analyse des descriptions, une fois que nous avons appliqué différentes techniques d’analyse du langage naturel, tel que l’identification des dépendances et l’étiquetage de la syntaxe.
Nous allons maintenant créer une visualisation de données pour identifier les mots les plus fréquents parmi les descriptions. Celle-ci se nomme un nuage de mots.
Un des problèmes avec la visualisation par nuage de mots, lorsqu’elle est basée sur des jetons représentant des mots seuls, c’est qu’il manque un peu de contexte. On va alors préférer refaire l’analyse, mais en utilisant les groupes de mots identifiés par l’analyse de dépendances syntaxiques.
Voici un aperçu des résultats de l’analyse en utilisant cette fois des groupes de mots
J’en fais maintenant un nuage de mots similaire au précédent, mais incluant tous les groupes de mots et non seulement les noms.
Une visualisation tout en coeur !
Enfin, je construis une visualisation thématique pour la fête de l’amour ! L’outil utilisé pour les nuages de mots permet d’utiliser une image comme masque de couleur. Nous y allons donc avec ce magnifique coeur !
Voici donc le résultat !
Cette image est un résumé de ce qui semble faire peur à plusieurs hommes. La diversité de l’amour et l’éducation à une sexualité saine sont des droits fondamentaux.
Il est de notre devoir de s’assurer que toutes et tous, et en particulier les prochaines générations, puissent vivre l’amour sans compromis, sans préjugés, sachant qu’on est à leurs côtés peu importe leurs préférences. C’est cette présence qu’offrent les livres, lorsqu’on ne cherche pas à les mettre à l’index.
J’espère que tu as apprécié cet article et que tu le partageras dans ton réseau !
Joyeuse St-Valentin 💘
François
DéconstruIT ⛏️🧱
Mastermind techno rebelle
Un accompagnement de six mois pour enfin réaliser tes projets technos tout en développant ton autonomie.
Libérons ensemble ton entreprise, ta clientèle et toi de l’oppression numérique.
Travaillons de manière durable et alignée sur tes valeurs dans un environnement sécuritaire, intime et engagé.
Tout en ayant bien du fun !