poster

Voici le premier billet d'une série portant sur l'analyse du contenu textuel de commentaires Facebook en lien avec des articles de la presse écrite. Ce projet a été à l'origine réalisé comme travail de session dans le cadre du cours IFT-7022 - Traitement automatique de la langue naturelle donné par Luc Lamontagne à l'Université Laval en automne 2019.

Introduction

Les commentaires extraits des fils de discussions sur des publications Facebook constituent une nouvelle forme de discours, complètement différent des textes formatés et normalisés qui proviennent de médias écrits. Leurs caractéristiques distinctes en tant que type littéraire à l'intersection de la critique et du dialogue vont demander des adaptations dans le traitement du langage naturel. Les attributs linguistiques, les entités nommées, la prise de position et les relations entre les commentaires seront abordés. Puis, on présente différentes approches de modélisation. Un exemple pratique permettra d'illustrer plusieurs concepts et de tirer quelques premières conclusions.

Attributs linguistiques

Analyse du discours

Selon Baxter [3], l'analyse du discours, qui est principalement dérivée de la sociologie, se découpe en quatre composantes principales (p.11) :

  • La variabilité du langage (adaptation à l'audience et au contexte)
  • La nature du langage (descriptif, narratif, expressif ou humoristique)
  • Le répertoire (vocabulaire, grammaire, figures de style)
  • Les contextes sociopolitiques et psychologiques

Observations: Le sens propre de chacun des commentaires est influencé par ces éléments. Ils peuvent représenter des attributs dans un modèle de classification de la pertinence par rapport à l'article en référence. Il faut noter que le modèle pourrait être biaisé, par exemple, en favorisant les commentaires qui ont un vocabulaire soutenu, davantage descriptif et sur un ton professionnel, c'est-à-dire similaire au style journalistique. Ce dernier pourrait ne pas être davantage en lien avec le contenu de l'article qu'un commentaire humoristique avec un niveau grammatical faible.

Mécanismes d'emphase

Selon Liebeskind et al. [8], les commentaires sur les réseaux sociaux présentent de nouvelles caractéristiques sémiotiques et linguistiques. En fait, on parle ici de sémiotique, car le discours n'est plus seulement signifié par des mots, mais aussi par des abréviations, des émojis, des onomatopées, des répétitions de caractères (en particulier la ponctuation).

On ajoute une dimension linguistique, car en plus d'un jargon spécifique à ce type de communication, les commentaires sont souvent écrits dans un niveau de langage passant du soutenu au vulgaire dans le même fil de conversation. Ces différents comportements peuvent être rassemblés sous le nom de mécanismes d'emphase.

Émojis et interjections

Les émojis et les interjections sont une composante essentielle des commentaires retrouvés sur les réseaux sociaux. Plus d'un commentaire sur huit contient un émoji.

Halté [7] a étudié en détail le rôle des émoticônes (tels que :-)) et des interjections (tels que le fameux lol). Leur normalisation inspirée des caractères japonais est nommée émojis (néologisme qui relie l'anglais emotion et la racine japonaise -ji représentant la notion de symbole). Il précise d'ailleurs que des tests de substitution ou de suppression permettent d'identifier le rôle modal de ces expressions (une sorte de facteur multiplicatif de la polarité ou valence du texte).

Observations: La portée d'une émoticône, tout comme la portée d'une négation, peut être déterminée en effectuant une analyse syntaxique par relations ou par constituants. Mais, règle générale, l'auteur remarque que la portée s'étend toujours sur les éléments qui précèdent l'émoticône. Ceci peut parfois limiter la recherche des fragments de la phrase qui en sont affectés (lorsqu'ils ne sont pas à la fin du commentaire).

Majuscules, emphases et répétitions

Les commentaires sur les réseaux sociaux laissent aussi apparaître de nouveaux modes d'expressions basés sur la typographie. L'utilisation de majuscules est intuitive pour l'ajout d'emphase depuis des millénaires, selon le professeur Paul Luna [12], et était utilisée par les empereurs romains pour illustrer la grandeur de leurs conquêtes.

Cependant, leur usage moderne est davantage considéré comme l'expression de la colère. L'ajout d'astérique est aussi un marqueur d'emphase, principalement utilisé dans les groupes de discussion en ligne, et se substitue aux caractères gras ou soulignés disponibles dans les traitements de texte.

Ponctuations

Plusieurs des auteurs cités dans ce rapport [6], [7], [8] notent aussi la présence fréquente de successions de plusieurs signes de ponctuation ou de la même lettre dans un mot. C'est un moyen additionnel de mettre de l'emphase. Notons que le TweetTokenizer de NLTK [4] compte même un paramètre pour limiter le nombre de successions d'un même jeton.

Impact sur la classification des parties du discours

Ces nouveaux attributs font de sorte qu'il ne sera plus possible d'utiliser avec autant de fiabilité les classificateurs de parties du discours (part of speech). Ils n'ont pas été conçus pour tenir compte de ces nouveaux éléments dans les phrases. Une approche retenue dans cette analyse pour augmenter la qualité de l'étiquetage est de séparer les émojis du contenu des phrases. Comme des modèles ne tiennent généralement pas compte de la casse ni de la présence de ponctuation à l'extérieur de la phrase, il ne sera pas nécessaire d'apporter d'autres modifications.

Qualité des commentaires

Schultes et al. [13] ont étudié les commentaires sur la plateforme de partage de vidéos YouTube. Le principal objectif était de classifier les commentaires selon différentes catégories de vidéos, en tenant compte à la fois des types de commentaires et de leur qualité.

Les principaux constats de leurs travaux sont que les commentaires sont généralement mal perçus par les utilisateurs du site web, étant perçus comme agressifs, stupides et non pertinents par près de la moitié des utilisateurs. Environ un utilisateur sur huit serait enclin à laisser des commentaires, alors que plus de la moitié ne liraient que les premiers commentaires.

Les types de commentaires correspondent à leur rôle : participer à une discussion, décrire son expérience de façon substantielle constitue un commentaire de qualité supérieure ou au contraire, un commentaire avec une forte charge sentimentale serait de qualité inférieure. Pour mesurer la qualité, ils ont utilisé l'outil SentiStrength, un outil d'analyse de sentiment spécialisé dans les commentaires de réseaux sociaux, ainsi qu'une liste de marqueurs émotionnels. Pour mesurer la pertinence, ils ont mesuré l'appariement de mots-clés dans le commentaire avec le titre du vidéo. Enfin, selon cette étude, l'ensemble des commentaires effectués sur un vidéo permettraient en soi de fournir une description adéquate du vidéo.

Observations: On pourrait donc déduire, depuis ces travaux, que la pertinence d'un commentaire pourrait être mesurée par la contribution d'un commentaire individuel à cette représentation collective. Une hypothèse à valider serait de voir s'il est possible d'avoir cette même représentation du contenu des articles dans les commentaires qui leur sont associés.

Suite

La suite de ce projet dans les prochains billets !

Références

[3] Judith A. Baxter. 2010. Discourse-analytic approaches to text and talk. In Research Methods in Linguistics, Lia Litosseliti (éd.). Continuum, 117‑137. https://research.aston.ac.uk/en/publications/discourse-analytic-approaches-to-text-and-talk

[4] Steven Bird. 2002. Nltk: The natural language toolkit. In In Proceedings of the ACL Workshop on Effective Tools and Methodologies for Teaching Natural Language Processing and Computational Linguistics. Philadelphia: Association for Computational Linguistics. https://www.aclweb.org/anthology/P04-3031/

[6] Mariza Georgalou. 2017. Discourse and identity on Facebook. Bloomsbury Academic, an imprint of Bloomsbury Publishing Plc, London. Consulté à l'adresse http://ariane.ulaval.ca/cgi-bin/recherche.cgi?qu=a2650955

[7] Pierre Halté. 2018. Les émoticônes et des interjections dans le tchat. Lambert-Lucas, Limoges. Consulté à l'adresse http://ariane.ulaval.ca/cgi-bin/recherche.cgi?qu=a2767912

[8] Chaya Liebeskind, Shmuel Liebeskind, et Yaakov HaCohen-Kerner. 2018. Comment Relevance Classification in Facebook. In Computational Linguistics and Intelligent Text Processing, Springer International Publishing, Cham, 241‑254. https://www.springerprofessional.de/en/comment-relevance-classification-in-facebook/16186518

[12] Alice Robb. 2014. How Capital Letters Became Internet Code for Yelling. The New Republic (avril 2014). Consulté 21 décembre 2019 à l'adresse https://newrepublic.com/article/117390/netiquette-capitalization-how-caps-became-code-yelling

[13] Peter Schultes, Verena Dorner, et Franz Lehner. 2013. Leave a Comment! An In-Depth Analysis of User Comments on YouTube. In Wirtschaftsinformatik. http://www.wi2013.de/proceedings/WI2013%20-%20Track%205%20-%20Schultes.pdf

Previous Post Next Post