HyperAIHyperAI
vor 11 Tagen

XTREME: Ein massiv mehrsprachiger Multitask-Benchmark zur Bewertung der mehrsprachigen Generalisierung

{Aditya Siddhant, Junjie Hu, Sebastian Ruder, Orhan Firat, Melvin Johnson, Graham Neubig}
Abstract

Ein erheblicher Teil des jüngsten Fortschritts bei der Anwendung von maschinellen Lernmodellen auf die natürliche Sprachverarbeitung (NLP) wurde durch Benchmarks vorangetrieben, die Modelle anhand einer Vielzahl von Aufgaben bewerten. Diese umfassenden Benchmarks sind jedoch bisher überwiegend auf Englisch beschränkt. Trotz wachsender Interesse an mehrsprachigen Modellen fehlt weiterhin ein Benchmark, der eine umfassende Evaluation solcher Ansätze auf einer breiten Palette von Sprachen und Aufgaben ermöglicht. Um dieses Defizit zu beheben, stellen wir den Cross-lingual TRansfer Evaluation of Multilingual Encoders (XTREME)-Benchmark vor – ein mehraufgaben-basiertes Benchmark-Tool zur Bewertung der mehrsprachigen Generalisierungsfähigkeit mehrsprachiger Repräsentationen über 40 Sprachen und 9 Aufgaben. Wir zeigen, dass Modelle, die auf Englisch getestet werden, auf vielen Aufgaben menschliche Leistung erreichen, während bei mehrsprachig übertragenen Modellen weiterhin eine signifikante Leistungslücke besteht, insbesondere bei syntaktischen und Satzretrieval-Aufgaben. Zudem zeigt sich eine erhebliche Varianz der Ergebnisse über die verschiedenen Sprachen hinweg. Wir werden den Benchmark veröffentlichen, um Forschung zu mehrsprachigen Lernmethoden zu fördern, die sprachliches Wissen über eine vielfältige und repräsentative Auswahl von Sprachen und Aufgaben hinweg übertragen können.

XTREME: Ein massiv mehrsprachiger Multitask-Benchmark zur Bewertung der mehrsprachigen Generalisierung | Neueste Forschungsarbeiten | HyperAI