Analyse du langage naturel en français: Quels sont les principaux défis ?

Dans cet article, je te présente les principaux défis de l’analyse du langage naturel en français. Je te partage aussi quelques pistes de solutions que j’ai pu identifier dans ma pratique.

Analyse du langage naturel en français: Quels sont les principaux défis ?
L’écriture inclusive
Les accords masculins, féminins et neutres
La lemmatisation
Les néologismes, anglicismes et régionalismes
Le peu de ressources logicielles

L’écriture inclusive

L’écriture inclusive est un ensemble de technique qui visent surtout à rendre la langue française moins masculine. Traditionnellement, le français a utilisé des termes masculins et des accords masculins pour représenter les métiers et les rôles sociaux.

Les mouvements d’émancipation de la femme ont un impact important sur la langue française. Il y a eu plusieurs revendications pour adopter des termes féminins pour représenter le rôle des femmes dans la société.

Les organisations officielles qui définissent la langue sont de tradition plutôt conservatrice. Il n’y a pas consensus sur plusieurs formes au féminin. Par exemple, on pourra retrouver les mots auteure et autrice pour représenter le féminin d’auteur.

Plusieurs dictionnaires et algorithmes sont construits à partir de textes passés. Les formes inclusives sont plutôt rares dans ceux-ci. Elles ne sont donc pas très bien reflétées dans les différents outils informatique de traitement du langage naturel.

Une solution ici, c’est de construire nos propres lexiques et de continuer à écrire de façon inclusive pour que les algorithmes soient davantage exposés à ce type de contenu.

Les accords masculins, féminins et neutres

Contrairement à l’anglais, les noms de la langue française ont un genre. Et pas seulement ceux qui concernent les personnes, mais les objets et les concepts aussi ! Ceci apporte plusieurs défis important lorsqu’un algorithme veut saisir le sens d’un texte.

De plus, l’adoption de l’écriture inclusive fait apparaître de nouvelles formes d’accords, sous la forme de doublets. Ceux-ci regroupent à la fois le masculin, le féminin et le pluriel dans le même mot. Ces accords utilisent souvent un symbole pour séparer les différents accords, le point médian (·). J’ai d’ailleurs conçu une application pour faciliter l’utilisation de celui-ci.


Petite note éditoriale: À mon avis, l’utilisation du point médian au lieu de plusieurs autres symboles tels que le point, le tiret et la barre oblique est à privilégier. D’abord, parce que ça démontre l’intention de créer un doublet abrégé. Aussi, parce que ce sera plus facile de créer des algorithmes et des logiciels. Par exemple, pour la lecture de textes ou pour accompagner les dyslexiques, ce sera plus facile s’il n’y a qu’un seul symbole à considérer.

Pour qu’un texte soit bien compris par les algorithmes, il faut le simplifier le plus possible pour avoir un nombre minimal de mots différents. Mais, on doit aussi préserver le plus possible le contenu sémantique des phrases. Pour ce faire, on utilise la technique de la lemmatisation.

La lemmatisation

La lemmatisation, c’est une technique où on supprime tous les préfixes, suffixes, les accords et les terminaisons d’un mot. Elle permet de retrouver le nom commun ou le verbe à partir duquel il a été formé. Le mot qu’on aura obtenu s’appelle aussi la forme canonique ou le lemme, d’où le terme lemmatisation.

En français, la lemmatisation est plus complexe qu’en anglais, car nous avons plus de 70 formes de conjugaisons différentes. Sans oublier tous les accords masculins et féminins. De plus, nous avons des formes de composition de mots qui sont plus élaborées qu’en anglais. Souvent, les mots avec des structures complexes en anglais proviennent du français.

Il existe une technique alternative à la lemmatisation qui est la racinisation. Celle-ci consiste à supprimer tous les préfixes et suffixes pour obtenir un radical. Contrairement à la lemmatisation, le radical n’est pas toujours un mot de la langue française.

Dans les deux cas, il existe différentes méthodes pour obtenir un lemme ou un radical:

  • des dictionnaires d’association
  • des ensembles de règles
  • des algorithmes d’apprentissage automatique qui ont été entraînés sur des paires (mot, lemme) ou (mot, radical)

Les néologismes, anglicismes et régionalismes

L’utilisation de calques de l’anglais et de mots anglais dans la langue parlée, et de plus en plus dans la langue écrite, apporte des défis additionnels pour l’interprétation sémantique des phrases. C’est un des défis les plus difficiles dans l’analyse du langage naturel en français. En fait, la plupart des algorithmes ont été conçus ou entraînés sur des textes en français standard, provenant de textes littéraires et de la presse écrite.

L’apparition de mots en anglais dans les phrases tend à dérouter les algorithmes et nuit à l’interprétation du sens.

De plus, la présence d’expressions locales et régionales, de néologismes et de structures de phrases inhabituelles, va souvent donner du fil à retordre aux algorithmes de traduction.

J’ajouterais enfin l’utilisation de plus en plus répandus des abréviations du web en anglais, ces fameux LOL, FOMO, YOLO devenus des éléments communs de la langue des plus jeunes générations …

Heureusement, l’apparition d’algorithmes basés sur l’apprentissage automatique avec des réseaux de neurones a permis de créer des substitutions sémantiques. Ces techniques permettent de passer par dessus les mots inconnus, en tenant compte du contexte qui entoure le mot. C’est ce qu’on nomme un plongement de mots, ou embedding en anglais.

Le peu de ressources logicielles pour l’analyse du langage naturel en français

Il y a peu de recherche académique qui porte spécifiquement sur l’analyse du langage naturel en français, et encore moins sur l’écriture sur le web.

De plus, le marché est dominé essentiellement par un seul logiciel d’analyse de la langue naturelle en français, Antidote. C’est un logiciel privatif dont les algorithmes ne sont pas publiés.

L’alternative libre Grammalecte, maintenant intégrée au logiciel infonuagique LanguageTool, est un projet intéressant à surveiller, mais il est encore loin derrière la complexité des algorithmes et des ressources d’Antidote au niveau de l’analyse du langage naturel.

Tout ceci ne veut pas dire d’adapter notre façon d’écrire pour les algorithmes, mais plutôt être conscient que les algorithmes vont avoir davantage de difficulté à traiter des textes en français qu’en anglais.

Passe à l’action

Tu aimerais apprendre les différents outils d’analyse de la langue naturelle en français.

Je te propose d’utiliser tes publications passées sur les réseaux sociaux, en particulier LinkedIn, pour apprendre à analyser ton contenu. Tu pourras en faire une source d’inspiration et de stratégie durable.

Tu peux rejoindre ma formation Libère tes chaînes de mots maintenant !

Libère tes chaînes de mots, une formation où tu apprends l'analyse du langage naturel avec tes données LinkedIn