HyperAIHyperAI
vor 17 Tagen

SLUE: Neue Benchmark-Aufgaben zur Bewertung der Sprachverstehensleistung auf natürlicher Sprache

Suwon Shon, Ankita Pasad, Felix Wu, Pablo Brusco, Yoav Artzi, Karen Livescu, Kyu J. Han
SLUE: Neue Benchmark-Aufgaben zur Bewertung der Sprachverstehensleistung auf natürlicher Sprache
Abstract

Der Fortschritt in der Sprachverarbeitung wurde durch gemeinsam genutzte Datensätze und Benchmark-Aufgaben unterstützt. Historisch gesehen konzentrierten sich diese auf Aufgaben der automatischen Spracherkennung (ASR), der Sprecheridentifikation oder andere niedrigstufige Aufgaben. In jüngster Zeit wächst das Interesse jedoch an höherstufigen Aufgaben des gesprochenen Sprachverstehens, einschließlich der Nutzung end-to-end-Modelle; für solche Aufgaben existieren jedoch weniger annotierte Datensätze. Gleichzeitig zeigt jüngste Forschung, dass die Vortrainierung generischer Darstellungen und deren anschließende Feinabstimmung für mehrere Aufgaben mit vergleichsweise wenig beschriftetem Datenmaterial möglich ist. Wir schlagen vor, eine Reihe von Benchmark-Aufgaben für die Evaluierung des Gesprochenen Sprachverstehens (Spoken Language Understanding Evaluation, SLUE) zu entwickeln, die aus begrenzten, beschrifteten Trainingsdatensätzen und entsprechenden Evaluierungssätzen bestehen. Diese Ressource würde der Forschungsgemeinschaft ermöglichen, den Fortschritt zu verfolgen, die Leistungsfähigkeit vortrainierter Darstellungen für höherstufige Aufgaben zu bewerten und offene Fragen wie die Wirksamkeit von Pipeline- gegenüber end-to-end-Ansätzen zu untersuchen. Wir präsentieren die erste Phase des SLUE-Benchmark-Suites, die Named-Entity-Recognition, Sentiment-Analyse und ASR auf den entsprechenden Datensätzen umfasst. Wir konzentrieren uns dabei auf natürlich produzierte (keine vorgelesenen oder synthetisierten) Sprache und frei verfügbare Datensätze. Wir liefern neue Transkriptionen und Annotationen für Teilmengen der VoxCeleb- und VoxPopuli-Datensätze, Evaluierungsmaße und Ergebnisse für Basismodelle sowie ein Open-Source-Toolkit, um die Basismodelle nachzuvollziehen und neue Modelle zu evaluieren.

SLUE: Neue Benchmark-Aufgaben zur Bewertung der Sprachverstehensleistung auf natürlicher Sprache | Neueste Forschungsarbeiten | HyperAI