La linguistique surprenante des commentaires Facebook

Voici le quatrième billet d’une série portant sur l’analyse du contenu textuel de commentaires Facebook en lien avec des articles de la presse écrite. Le troisième billet peut être lu ici

🧪 Introduction

Quelle est la méthodologie d’analyse linguistique des commentaires Facebook dans la 4e partie ?

Utilisation de NLTK (PunktSentenceTokenizer, ToktokTokenizer) et Stanford CoreNLP pour segmentation, POS tagging, entités nommées. Ajouts : conversion émojis (librairie emoji), lemmatisation French LEFFF, synsets WordNet. Analyse statistique du niveau de langage, emphase (émojis, majuscules, ponctuation), intertextualité (références auteurs, 2e personne), pertinence (entités/synsets communs).

Alors que le troisième billet traitait de la modélisation et de la présentation des données qui sont analysées, nous traiterons ici de la méthodologie de traitement des données des articles et des commentaires, ainsi que de l’analyse statistique des commentaires.

🧪 Méthodologie et algorithmes

La plupart des analyses ont été effectuées à l’aide des différents algorithmes inclus dans la librairie NLTK et le logiciel Stanford CoreNLP [9].

🧪 Traitement des articles et des commentaires

La segmentation en phrases a été effectuée à l’aide de l’algorithme PunktSentenceTokenizer et la segmentation en mots à l’aide de ToktokTokenizer ou TweetTokenizer.

L’étiquetage des parties du discours et l’extraction des entités nommées dans les articles ont été effectués à l’aide de l’analyseur Stanford CoreNLP. Seules les étiquettes de parties du discours suivantes ont été conservées : ['ADJ',’ADV’,’INTJ’,’NOUN’,’PROPN’,’VERB’] dans un dictionnaire Python. Les entités nommées ont aussi été enregistrées dans un dictionnaire Python.

🧪 Traitement additionnel pour les commentaires

Les références aux auteurs ont été identifiées listant les auteurs des commentaires , pour chacun des articles, puis en identifiant ceux-ci dans le texte des autres commentaires.

Puis, les émojis ont été convertis en texte à l’aide de la librairie emoji pour Python [14]. Ils ont aussi été extraits dans un dictionnaire Python.

La lemmatisation en français a été effectuée à l’aide du French LEFFF Lemmatizer de Claude Coulombe [5], qui est compatible avec la syntaxe utilisée dans la librairie NLTK et les étiquettes de parties du discours utilisées dans WordNet.

On identifie les synsets réalistes pour chaque mot admissible depuis WordNet en convertissant les étiquettes de parties du discours identifiées depuis avec CoreNLP POS Tagger en étiquettes compatibles. On recherche ensuite le mot lemmatisé dans WordNet, et on filtre les résultats obtenus selon les parties du discours possibles.

Quels outils NLP sont utilisés pour traiter les articles et commentaires Facebook ?

NLTK : PunktSentenceTokenizer (phrases), ToktokTokenizer/TweetTokenizer (mots). Stanford CoreNLP : POS tagging (ADJ, ADV, INTJ, NOUN, PROPN, VERB), entités nommées. Librairie emoji pour conversion/extraction. French LEFFF Lemmatizer pour lemmatisation FR. WordNet pour synsets sémantiques.

🧪 Analyse statistique des commentaires

Les différentes métriques ont été calculées et les graphiques créés dans le programme analyse_articles.py qui sera présenté en détail dans un prochain article.

🧪 Distribution du niveau de langage

On observe une médiane entre 2 et 5 pour le nombre de mots ayant une étiquette parties du discours et un synset dans Wordnet. Ce nombre est remarquablement plus élevé pour les commentaires sur les publications de RC. Dans presque tous les cas, il est possible d’utiliser au moins un synset pour inférer le sens de la publication et ainsi établir une relation sémantique avec l’article.

Dans plus de la moitié des cas, 75 % des mots ayant une étiquette parties du discours dans les commentaires sont présents dans WordNet.

La majorité des commentaires contiennent entre deux et quatre types d’étiquettes de parties du discours.

🧪 Distribution des marqueurs d’emphase

Les émojis les plus fréquents, par une large proportion, expriment le rire. Le plus fréquent est Face With Tears of Joy.

On retrouve généralement peu de mots en majuscules, mais les rares commentaires qui en contiennent en ont beaucoup. Cette caractéristique ne ferait cependant pas un bon attribut pour un modèle de classification.

On remarque qu’il y a une quantité non négligeable de commentaires qui contiennent des ponctuations successives. Ce serait un attribut à considérer dans un modèle de classification.

Quelles sont les observations sur les marqueurs d’emphase dans les commentaires Facebook ?

Émojis dominés par rire (Face With Tears of Joy). Peu de majuscules sauf en pics. Ponctuations successives fréquentes (bon attribut classification).

🧪 Indicateurs d’intertextualité

Le principal indicateur de l’intertextualité est la référence directe à l’auteur d’un commentaire précédent.

Proportion de références d’auteurs, par médias
	Media	Proportion
0	FIG	0.356813
1	RC	0.351153
2	TVA	0.0.351805

On remarque ici que la proportion de commentaires qui contiennent de telles références est constante et est aussi relativement élevée, peu importe le média. On pourrait donc conclure qu’il s’agit d’un attribut possédant de bonnes caractéristiques pour un modèle de classification binaire.

Un autre indicateur de l’intertextualité est l’usage de la deuxième personne, autant pour les pronoms que pour les articles possessifs. Cependant, ici, il n’est pas possible de savoir, sans devoir faire une analyse des coréférences, si la personne référée est l’auteur d’un commentaire ou une personne mentionnée dans l’article.

Proportion de commentaires avec des pronoms ou articles à la 2e personne, par médias
	Media	Proportion
0	FIG	0.135150
1	RC	0.200405
2	TVA	0.179176

Cet indicateur possède aussi de bonnes caractéristiques pour être un attribut dans un modèle de classification.

Quels indicateurs d’intertextualité sont analysés ?

Références directes à auteurs (∼35% constante par média : FIG, RC, TVA). Usage 2e personne (pronoms/articles possessifs : 13-20% par média).

🧪 Analyse statistique des relations entre commentaires et articles

🧪 Entités nommées en commun

Une façon d’évaluer la pertinence d’un commentaire est de dénombrer le nombre d’entités nommées communes entre ce commentaire et l’article auquel il réfère. Ici, on calcule, pour chaque commentaire, le nombre d’entités en commun avec l’article, puis on effectue la moyenne par article. Cette statistique est représentée sur la figure qui suit.

On remarque que le nombre moyen d’entités référées par commentaire est d’environ 1/5. On peut donc dire qu’en moyenne, 20 % des commentaires réfèrent à une entité nommée de l’article. Afin d’augmenter potentiellement ce nombre, on pourrait étendre la liste des entités nommées à l’aide de relations sémantiques de méronymie.

🧪 Groupes sémantiques en commun

Une autre façon d’évaluer la pertinence est d’accumuler tous les synsets possibles d’un article et de chacun de ses commentaires et de calculer l’intersection de ces ensembles. On calcule ensuite la proportion des synsets provenant du commentaire qui se trouvent dans l’intersection. Enfin, on calcule la moyenne, par article, de cette proportion. On a donc un indicateur moyen de la distance sémantique entre l’article et l’ensemble de ses commentaires.

Note : on calcule ici une proportion étant donné le nombre variable de synsets par parties du discours.

Comment mesurer la pertinence sémantique des commentaires vs articles ?

Entités nommées communes (moyenne ∼0.2 par commentaire). Intersection synsets (proportion synsets commentaire dans article, moyenne par article ; variations par média).

On remarque ici une grande différence entre les distributions de cette statistique parmi les médias. Une hypothèse à vérifier serait que celle-ci permettrait de dresser un portrait global de la relation sémantique des commentaires produits par les abonnés d’un média aux articles publiés par celui-ci.

🧪 Conclusion

Dans ce rapport, on aborde les caractéristiques propres aux commentaires sur les réseaux sociaux. On décrit plusieurs approches possibles pour créer des attributs pour un modèle de classification de la pertinence. Des liens sont établis avec la plupart des techniques traditionnelles d’analyse et traitement du langage naturel. De plus, on présente certaines caractéristiques propres aux commentaires. Enfin, un exemple d’application est étudié et illustré avec plusieurs statistiques sur les attributs potentiels dans la modélisation. Les entités nommées et la sémantique pourraient représenter des composantes importantes pour mesurer la pertinence des commentaires.

🧪 Billet(s) précédent(s)

🧪 Références

[5] Claude Coulombe. 2019. French LEFFF Lemmatizer. Consulté 26 décembre 2019 à l’adresse https://github.com/ClaudeCoulombe/FrenchLefffLemmatizer
[9] Christopher D. Manning, Mihai Surdeanu, John Bauer, Jenny Finkel, Steven J. Bethard, et David McClosky. 2014. The Stanford CoreNLP Natural Language Processing Toolkit. In Association for Computational Linguistics (ACL) System Demonstrations, 55‑60. Consulté à l’adresse http://www.aclweb.org/anthology/P/P14/P14-5010
[14] Taehoon Kim et Kevin Wurster. 2019. emoji. Consulté à l’adresse https://github.com/carpedm20/emoji/

🧪 Références additionnelles

Utilisation de CoreNLP avec NLTK