HyperAIHyperAI
vor 18 Tagen

Sprach-Sprach-Vortrainierung für end-to-end gesprochene Sprachverstehens

Yao Qian, Ximo Bian, Yu Shi, Naoyuki Kanda, Leo Shen, Zhen Xiao, Michael Zeng
Sprach-Sprach-Vortrainierung für end-to-end gesprochene Sprachverstehens
Abstract

End-to-End (E2E)-Sprachverstehen (SLU) kann Semantik direkt aus dem Sprachsignal ableiten, ohne eine Kaskade aus einem automatischen Spracherkennungssystem (ASR) und einem natürlichen-Sprach-Verstehens-Modul (NLU) zu verwenden. Allerdings sind in einer realen Produktionsumgebung gepaarte Aufnahmen von Äußerungen und entsprechende Semantikinformationen möglicherweise nicht immer verfügbar oder ausreichend, um ein E2E-SLU-Modell zu trainieren. In diesem Paper schlagen wir vor, einen gut optimierten E2E-ASR-Encoder (Sprache) und einen vortrainierten Sprachmodell-Encoder (Sprache) zu einem Transformer-Decoder zu vereinen. Das vereinigte sprach-sprachliche vortrainierte Modell (SLP) wird kontinuierlich auf begrenzten gelabelten Daten aus einem Zielbereich durch Verwendung eines bedingten maskierten Sprachmodellierungs-Ziels (MLM) verbessert und kann somit effektiv eine Folge aus Absicht, Slot-Typ und Slot-Wert für gegebene Eingabesprache während der Inferenz generieren. Die experimentellen Ergebnisse auf zwei öffentlichen Korpora zeigen, dass unser Ansatz zum E2E-SLU dem herkömmlichen kaskadierten Verfahren überlegen ist. Zudem erreicht er die derzeit besten Ansätze zum E2E-SLU mit deutlich weniger gepaarten Daten.