HyperAIHyperAI
il y a 2 mois

XNLI : Évaluation des Représentations de Phrases Translingues

Alexis Conneau; Guillaume Lample; Ruty Rinott; Adina Williams; Samuel R. Bowman; Holger Schwenk; Veselin Stoyanov
XNLI : Évaluation des Représentations de Phrases Translingues
Résumé

Les systèmes de traitement de la langue naturelle les plus avancés s'appuient sur une supervision sous forme de données annotées pour apprendre des modèles compétents. Ces modèles sont généralement formés sur des données dans une seule langue (généralement l'anglais) et ne peuvent pas être utilisés directement au-delà de cette langue. Étant donné que la collecte de données dans toutes les langues n'est pas réaliste, il y a un intérêt croissant pour la compréhension linguistique translinguistique (XLU) et le transfert translinguistique à faibles ressources. Dans ce travail, nous construisons un ensemble d'évaluation pour l'XLU en étendant les ensembles de développement et de test du Corpus d'Inférence Naturelle Multigenre (MultiNLI) à 15 langues, dont des langues à faibles ressources telles que le swahili et l'ourdou. Nous espérons que notre jeu de données, appelé XNLI, stimulera la recherche en compréhension translinguistique des phrases en fournissant une tâche d'évaluation standard informative. De plus, nous fournissons plusieurs baselines pour la compréhension translinguistique des phrases, dont deux basées sur des systèmes de traduction automatique et deux qui utilisent des données parallèles pour entraîner des encodeurs multilingues alignés basés sur des sacs de mots et des LSTM. Nous constatons que l'XNLI représente un ensemble d'évaluation pratique et difficile, et que la traduction directe des données de test offre les meilleures performances parmi les baselines disponibles.