Potion Bottle Icon Manuel d'alchimie du code Potion Bottle Icon

La linguistique surprenante des commentaires Facebook - 3e partie

- 832 mots - Temps de lecture estimé: 5 minutes

Offre de formation

Crystal Ball IconUtiliser des chatbots LLM localement et protéger ses donnéesCrystal Ball Icon

Utilise l'IA sans envoyer les données de ta clientèle sur des serveurs américains. Fais tourner des modèles directement sur ton ordinateur, en toute confidentialité. Conforme à la loi 25.

Réconcilie IA et vie privée — Inscris-toi

Graphique représentant l'analyse des commentaires sur Facebook

Voici le troisième billet d’une série portant sur l’analyse du contenu textuel de commentaires Facebook en lien avec des articles de la presse écrite. Le second billet peut être lu ici

🌘 Introduction


Sun Face IconComment modéliser les commentaires Facebook pour une analyse linguistique avec Python ?Sun Face Icon


La modélisation utilise une représentation vectorielle dense via réduction de dimensions (LSA, LDA, plongements de mots) pour textes courts et clairsemés. Apprentissage non supervisé pour classification de pertinence, gérant défis comme fautes d’orthographe, sarcasme, salutations et contexte latent. Outils : Pandas, newspaper pour scraping, modèles non supervisés.

Alors que le second billet traitait des entités nommées, prises de parole et relations entre les commentaires, nous parlerons ici de modélisation et présenterons les données qui seront analysées.

🌘 Modélisation

🌘 Représentation vectorielle

Étant donné que les commentaires sont de courts textes, souvent formés à partir d’un très large lexique, en tenant compte des nombreuses fautes d’orthographe et mécanismes d’emphase, leur représentation sous forme vectorielle est très creuse. Il faudra donc nécessairement utiliser une forme de réduction de dimensions. Liebeskind et al. [8] propose quatre approches : analyse sémantique latente (LSA), allocation dynamique de Dirichlet (LDA), projection aléatoire (Lemme de Johnson-Lindenstrauss) ou plongements de mots.

Comme nos commentaires ne sont pas étiquetés, nous devons utiliser un apprentissage non supervisé. Les deux approches consistent à construire soit un modèle commun pour les articles et les commentaires, ou deux modèles distincts. Afin d’avoir une représentation qui est davantage axée vers les thèmes généraux, les auteurs recommandent d’utiliser des vecteurs denses et cours, tout au plus quelques centaines.

🌘 Classification de la pertinence

Selon les observations de Liebeskind et al. [8], les principaux obstacles à la modélisation de la pertinence des commentaires est la présence de salutations et de commentaires obscènes, les nombreux sous-entendus entre les commentaires (contexte latent) ainsi que la présence de sarcasme. Les commentaires qui ont été classés comme non pertinents étaient principalement des références implicites ou des salutations.


Sun Face IconQuels corpus de textes sont analysés pour les commentaires Facebook francophones ?Sun Face Icon


Corpus d’articles et commentaires de Le Figaro (25 publications, 7155 commentaires), Radio-Canada (22, 3947) et TVA Nouvelles (24, 6262). Extraits via exportcomments.com (XLSX), Pandas pour commentaires, newspaper pour scraping d’articles et entités nommées.

🌘 Exemple d’application

🌘 Description des corpus de textes

Nous analyserons les articles provenant des pages Facebook de trois médias écrits francophones : Le Figaro (FIG), Radio-Canada (RC) et TVA Nouvelles (TVA). Pour chacun de ces médias, nous avons respectivement une publication Facebook contenant un lien vers un article journalistique, ainsi qu’un corpus de commentaires extraits depuis celle-ci.

media Nombre de publications
FIG 25
RC 22
TVA 24

Le premier corpus étudié est constitué du texte des articles liés dans les publications (l’utilisateur de Facebook devant cliquer sur le lien pour y accéder). Le titre de l’article n’est pas inclus dans ce corpus. Le second corpus est constitué d’un ensemble de commentaires publiés par des utilisateurs du réseau social et associés à chacune des publications précédentes.

media Nombre de commentaires
FIG 7155
RC 3947
TVA 6262

Ces deux corpus ont été créés à l’aide des données de commentaires extraites depuis l’application en ligne exportcomments.com [2] dans des fichiers XLSX. Les fichiers ont par la suite été utilisés par trois programmes Python :

🌘 Suite

🌘 Billet(s) précédent(s)

🌘 Références

Offre de service

Moon Phases IconConsultation stratégique IA et vie privée — 2 heures — 490 $Moon Phases Icon

Tu veux intégrer l’IA sans compromettre les données de ta clientèle ? En 2 heures, je t’aide à définir une stratégie IA responsable, basée sur les normes ISO et IEEE.

La consultation inclut un plan d'action détaillé pour mettre en œuvre les recommandations et prioriser les étapes suivantes.

Réserve ta Consultation stratégique
Abonne-toi au fil RSS pour ne rien manquer.

Étiquettes