HyperAIHyperAI
il y a 11 jours

XTREME : un benchmark massivement multilingue et multi-tâches pour évaluer la généralisation cross-lingue

{Aditya Siddhant, Junjie Hu, Sebastian Ruder, Orhan Firat, Melvin Johnson, Graham Neubig}
Résumé

Les progrès récents dans l'application des modèles d'apprentissage automatique au traitement du langage naturel (NLP) ont été principalement stimulés par des benchmarks évaluant les modèles sur une large variété de tâches. Toutefois, ces benchmarks à couverture étendue se sont principalement concentrés sur la langue anglaise, et malgré un intérêt croissant pour les modèles multilingues, un benchmark permettant une évaluation complète de ces méthodes sur un éventail diversifié de langues et de tâches reste encore absent. À cet effet, nous introduisons le benchmark Cross-lingual TRansfer Evaluation of Multilingual Encoders (XTREME), un benchmark multi-tâches destiné à évaluer les capacités de généralisation multilingue des représentations multilingues sur 40 langues et 9 tâches. Nous montrons que bien que les modèles testés sur l'anglais atteignent souvent des performances humaines sur de nombreuses tâches, un écart significatif persiste dans les performances des modèles transférés multilinguement, notamment sur les tâches syntaxiques et de recherche de phrases. De plus, une large dispersion des résultats est observée entre les différentes langues. Nous mettrons ce benchmark à disposition du public afin de stimuler la recherche sur les méthodes d'apprentissage multilingue capables de transférer des connaissances linguistiques à travers un ensemble diversifié et représentatif de langues et de tâches.

XTREME : un benchmark massivement multilingue et multi-tâches pour évaluer la généralisation cross-lingue | Articles de recherche récents | HyperAI