UniverSLU: Universal Spoken Language Understanding für vielfältige Aufgaben mit natürlichen Sprachanweisungen

Kürzliche Studien nutzen große Sprachmodelle mit Multi-Task-Fähigkeiten, indem sie natürliche Sprache als Prompt verwenden, um das Verhalten des Modells zu steuern und die Leistung von auf spezifische Aufgaben zugeschnittenen Modellen zu übertreffen. Ausgehend von diesem Ansatz fragen wir: Können wir ein einziges Modell entwickeln, das verschiedene Aufgaben des gesprochenen Sprachverstehens (Spoken Language Understanding, SLU) gemeinsam erfüllt? Wir beginnen damit, ein vortrainiertes Modell für die automatische Spracherkennung (Automatic Speech Recognition, ASR) durch einzelne Token als Aufgabenspezifizierer auf zusätzliche Aufgaben anzupassen. Wir verfeinern diesen Ansatz durch Instruction Tuning, also eine Feinabstimmung mittels natürlicher Sprache beschriebener Aufgabenanweisungen, gefolgt von einer Liste möglicher Label-Optionen. Unser Ansatz ermöglicht eine Generalisierung auf neue Aufgabenbeschreibungen für bereits gesehene Aufgabentypen während der Inferenz, was die Benutzerfreundlichkeit erheblich steigert. Wir demonstrieren die Wirksamkeit unseres einheitlichen Multi-Task-Lernmodells „UniverSLU“ für 12 Arten von Sprachklassifizierungs- und Sequenzgenerierungsaufgaben, die sich über 17 Datensätze und 9 Sprachen erstrecken. Auf den meisten Aufgaben erzielt UniverSLU wettbewerbsfähige Ergebnisse und übertreffen oft sogar spezialisierte Modelle. Zudem bewerten wir die Zero-Shot-Fähigkeiten und stellen fest, dass das Modell auch auf neue Datensätze und Sprachen für bereits bekannte Aufgabentypen generalisiert.