Amélioration de l'extraction des relations par des représentations linguistiques pré-entraînées

Les méthodes actuelles d'extraction de relations les plus avancées s'appuient généralement sur un ensemble de caractéristiques lexicales, syntaxiques et sémantiques, calculées explicitement lors d'une étape de prétraitement. L'entraînement des modèles d'extraction de caractéristiques nécessite des ressources linguistiques supplémentaires annotées, ce qui limite considérablement l'applicabilité et la portabilité de l'extraction de relations aux nouvelles langues. De même, le prétraitement introduit une source d'erreur supplémentaire. Pour remédier à ces limitations, nous présentons TRE (Transformer for Relation Extraction), une extension du Transformers Pré-entraînés Générateurs d'OpenAI [Radford et al., 2018]. Contrairement aux modèles précédents d'extraction de relations, TRE utilise des représentations linguistiques profondes pré-entraînées plutôt que des caractéristiques linguistiques explicites pour informer la classification des relations et les combine avec l'architecture de Transformers auto-attentionnée afin de modéliser efficacement les dépendances à longue portée entre les mentions d'entités. TRE nous permet d'apprendre des caractéristiques linguistiques implicites uniquement à partir de corpus textuels bruts par un pré-entraînement non supervisé, avant d'affiner les représentations linguistiques apprises sur la tâche d'extraction de relations. TRE obtient un nouveau résultat state-of-the-art sur les jeux de données TACRED et SemEval 2010 Task 8, atteignant respectivement un F1-test de 67,4 et 87,1. De plus, nous observons une augmentation significative de l'efficacité échantillonnale. Avec seulement 20 % des exemples d'entraînement, TRE égale les performances de nos modèles baselines et du modèle entraîné à partir de zéro sur 100 % du jeu de données TACRED. Nous mettons en open source nos modèles entraînés, nos expériences et notre code source.