Séminaire Act&Risk - Nicolas Garneau - Extraction d'information

Publié le 8 mars 2018 - 404 mots - Temps de lecture estimé: 2 minutes

🌘 Petites créances

Informations de base sur la poursuite aux petites créances
Annotation manuelle de documents: Logiciel
Brat

🌘 Qu’est-ce qu’on extrait

Entités
Relations
Évènements

Pour utilisation dans:

BDs
Modèles

🌘 Réseau de neurones

Description de ce qu’est un neurone:
Poids
Fonction d’activation
Sortie
Fonction de perte
Gradient que l’on propage par en arrière
Mise à jour des poids

🌘 Architectures

Réseaux de neurones récurrents:
Principalement pour modéliser des séquences
Les variables ont une dépendance à travers le temps ou au fil de la
séquence
Exemple: des phrases
Convolutions:
Peut-être aussi utilisé en traitement de la langue (non présenté)

🌘 Pourquoi utiliser des réseaux de neurones

Cartes graphiques performantes
Fonctionnent bien en pratique
Extraction de caractéristiques et de représentations intermédiaires

🌘 Word embeddings

Plongements de mots
2013 avec Tomas
Mikolov
Python: package
gensim et
word2vec
Contexte: Exemple “Tesgüino”
Représenter un mot de manière sémantique par son contexte
Construire une matrice de cooccurences
Projection de deux mots sur deux espaces: les vecteurs pointent vers
la même direction

🌘 Skip-Gram

première couche: One hot encoding
couche intermédiaire: Vecteur de poids
couche de droite: probabilité du contexte de mots

🌘 Référence

Semantic with dense vectors: [@jurafsky2014speech]
Probabilité que le mot soit dans le même contexte par rapport à
l’ensemble du vocabulaire
Negative Sampling

🌘 Word2vec

Word2VecKeyedVectors

🌘 NER

Séparateur de jetons, pour chacun on lui attribue une étiquette
Word by word feature encoding (manuellement ou dataset pré-étiqueté)
NeuroNER [@2017neuroner]

🌘 Extraction de relations (RE)

Modèle qui associe les entités entre elles
Ensemble de caractéristiques
Une relation par paire d’entité dans le dataset.
On peut utiliser la distance entre les concepts

🌘 Classification

Softmax: régression logistique multiclasse
Stochastic gradent descent: minibatch

🌘 Problème

Documents légaux francophones
Les modèles préentrainés utilisent des journaux et non des textes
légaux
Peu de modèles avec des documents en français

🌘 Volume de données

Environ 900 phrases de 40 documents
Pas besoin de tant de documents lorsqu’ils sont similaires
Bootstrapping: entrainer avec les 900 phrases, annoter, faire des
corrections et les ajouter au training set

🌘 PyToune

Framework pour travailler avec PyTorch. Développé par le GRAAL.
Lien
Packages PyTouneNER et PyTouneRE appelés depuis Brat pour faire du
tagging automatique. Non disponibles dans la version git.

Configuration Express

Bénéficie d'une heure de consultation pour la configuration de tes outils de travail et de communications. Cette session intensive t'offre des solutions concrètes et un plan d'action clair.

Découvre la Configuration Express.