HyperAIHyperAI
vor 9 Tagen

TAPE: Bewertung der Few-shot-Russischsprachverstehens

Ekaterina Taktasheva, Tatiana Shavrina, Alena Fenogenova, Denis Shevelev, Nadezhda Katricheva, Maria Tikhonova, Albina Akhmetgareeva, Oleg Zinkevich, Anastasiia Bashmakova, Svetlana Iordanskaia, Alena Spiridonova, Valentina Kurenshchikova, Ekaterina Artemova, Vladislav Mikhailov
TAPE: Bewertung der Few-shot-Russischsprachverstehens
Abstract

Neuere Fortschritte im Bereich des Zero-shot- und Few-shot-Lernens haben vielversprechende Perspektiven für eine Vielzahl von Forschungs- und praktischen Anwendungen eröffnet. Dennoch fehlt es in diesem rasch wachsenden Bereich an standardisierten Evaluierungssuiten für nicht-englischsprachige Sprachen, was die Entwicklung außerhalb des englischsprachigen Paradigmas behindert. Um dieser Forschungslinie entgegenzuwirken, stellen wir TAPE (Text Attack and Perturbation Evaluation) vor – einen neuen Benchmark, der sechs anspruchsvollere NLU-Aufgaben für Russisch umfasst und Bereiche wie Multi-Hop-Reasoning, ethische Konzepte, Logik sowie Alltagswissen abdeckt. Die Gestaltung von TAPE konzentriert sich auf eine systematische Evaluierung von Zero-shot- und Few-shot-NLU: (i) sprachlich ausgerichtete adversarielle Angriffe und Störungen zur Analyse der Robustheit und (ii) Unterpopulationen zur fein abgestimmten Interpretation. Eine detaillierte Analyse der autoregressiven Baselines zeigt, dass einfache, auf Rechtschreibung basierende Störungen die Leistung am stärksten beeinflussen, während das Paraphrasieren der Eingabe eine deutlich geringere Wirkung hat. Gleichzeitig offenbaren die Ergebnisse eine erhebliche Leistungslücke zwischen neuronalen und menschlichen Baselines bei den meisten Aufgaben. Wir stellen TAPE öffentlich zur Verfügung (tape-benchmark.com), um die Forschung an robusteren Sprachmodellen voranzutreiben, die auch bei geringer oder gar keiner Überwachung auf neue Aufgaben generalisieren können.