HyperAIHyperAI
vor 2 Monaten

XNLI: Evaluation von cross-lingualen Satzrepräsentationen

Alexis Conneau; Guillaume Lample; Ruty Rinott; Adina Williams; Samuel R. Bowman; Holger Schwenk; Veselin Stoyanov
XNLI: Evaluation von cross-lingualen Satzrepräsentationen
Abstract

Zustands der Kunst befindliche Systeme zur natürlichsprachlichen Verarbeitung (Natural Language Processing, NLP) basieren auf Aufsicht in Form von annotierten Daten, um fähige Modelle zu lernen. Diese Modelle werden in der Regel auf Daten einer einzelnen Sprache (in der Regel Englisch) trainiert und können nicht direkt auf andere Sprachen übertragen werden. Da es nicht realistisch ist, in jeder Sprache Daten zu sammeln, hat sich das Interesse an cross-lingualer Sprachverstehensfähigkeiten (Cross-Lingual Understanding, XLU) und an Transfermethoden für sprachliche Ressourcen mit geringem Aufwand gesteigert. In dieser Arbeit erweitern wir die Entwicklungs- und Testsets des Multi-Genre Natural Language Inference Corpus (MultiNLI) auf 15 Sprachen, darunter ressourcenarme Sprachen wie Swahili und Urdu. Wir hoffen, dass unser Datensatz, der als XNLI bezeichnet wird, die Forschung im Bereich des cross-lingualen Satzverstehens durch Bereitstellung eines informativen Standard-Evaluationsaufgaben katalysieren wird. Darüber hinaus stellen wir mehrere Baseline-Methoden für multilinguale Satzverstehensfähigkeiten bereit, darunter zwei basierend auf maschinellen Übersetzungssystemen sowie zwei Methoden, die parallele Daten verwenden, um ausgerichtete multilinguale Bag-of-Words- und LSTM-Kodierer zu trainieren. Wir stellen fest, dass XNLI ein praktisches und anspruchsvolles Evaluationsframework darstellt und dass die direkte Übersetzung der Testdaten unter den verfügbaren Baselines die beste Leistung erzielt.