🌘 Petites créances
- Informations de base sur la poursuite aux petites créances
- Annotation manuelle de documents: Logiciel
Brat
🌘 Qu’est-ce qu’on extrait
- Entités
- Relations
- Évènements
Pour utilisation dans:
- BDs
- Modèles
🌘 Réseau de neurones
- Description de ce qu’est un neurone:
- Poids
- Fonction d’activation
- Sortie
- Fonction de perte
- Gradient que l’on propage par en arrière
- Mise à jour des poids
🌘 Architectures
- Réseaux de neurones récurrents:
- Principalement pour modéliser des séquences
- Les variables ont une dépendance à travers le temps ou au fil de la
séquence - Exemple: des phrases
- Convolutions:
- Peut-être aussi utilisé en traitement de la langue (non présenté)
🌘 Pourquoi utiliser des réseaux de neurones
- Cartes graphiques performantes
- Fonctionnent bien en pratique
- Extraction de caractéristiques et de représentations intermédiaires
🌘 Word embeddings
-
Plongements de mots
-
2013 avec Tomas
Mikolov -
Python: package
gensim et
word2vec -
Contexte: Exemple “Tesgüino”
-
Représenter un mot de manière sémantique par son contexte
-
Construire une matrice de cooccurences
-
Projection de deux mots sur deux espaces: les vecteurs pointent vers
la même direction
🌘 Skip-Gram
- première couche: One hot encoding
- couche intermédiaire: Vecteur de poids
- couche de droite: probabilité du contexte de mots
🌘 Référence
- Semantic with dense vectors: [@jurafsky2014speech]
- Probabilité que le mot soit dans le même contexte par rapport à
l’ensemble du vocabulaire - Negative Sampling
🌘 Word2vec
🌘 NER
- Séparateur de jetons, pour chacun on lui attribue une étiquette
- Word by word feature encoding (manuellement ou dataset pré-étiqueté)
- NeuroNER [@2017neuroner]
🌘 Extraction de relations (RE)
- Modèle qui associe les entités entre elles
- Ensemble de caractéristiques
- Une relation par paire d’entité dans le dataset.
- On peut utiliser la distance entre les concepts
🌘 Classification
- Softmax: régression logistique multiclasse
- Stochastic gradent descent: minibatch
🌘 Problème
- Documents légaux francophones
- Les modèles préentrainés utilisent des journaux et non des textes
légaux - Peu de modèles avec des documents en français
🌘 Volume de données
- Environ 900 phrases de 40 documents
- Pas besoin de tant de documents lorsqu’ils sont similaires
- Bootstrapping: entrainer avec les 900 phrases, annoter, faire des
corrections et les ajouter au training set
🌘 PyToune
- Framework pour travailler avec PyTorch. Développé par le GRAAL.
Lien - Packages PyTouneNER et PyTouneRE appelés depuis Brat pour faire du
tagging automatique. Non disponibles dans la version git.