HyperAIHyperAI

Command Palette

Search for a command to run...

Sprach-Sprach-Vortrainierung für end-to-end gesprochene Sprachverstehens

Yao Qian Ximo Bian Yu Shi Naoyuki Kanda Leo Shen Zhen Xiao Michael Zeng

Zusammenfassung

End-to-End (E2E)-Sprachverstehen (SLU) kann Semantik direkt aus dem Sprachsignal ableiten, ohne eine Kaskade aus einem automatischen Spracherkennungssystem (ASR) und einem natürlichen-Sprach-Verstehens-Modul (NLU) zu verwenden. Allerdings sind in einer realen Produktionsumgebung gepaarte Aufnahmen von Äußerungen und entsprechende Semantikinformationen möglicherweise nicht immer verfügbar oder ausreichend, um ein E2E-SLU-Modell zu trainieren. In diesem Paper schlagen wir vor, einen gut optimierten E2E-ASR-Encoder (Sprache) und einen vortrainierten Sprachmodell-Encoder (Sprache) zu einem Transformer-Decoder zu vereinen. Das vereinigte sprach-sprachliche vortrainierte Modell (SLP) wird kontinuierlich auf begrenzten gelabelten Daten aus einem Zielbereich durch Verwendung eines bedingten maskierten Sprachmodellierungs-Ziels (MLM) verbessert und kann somit effektiv eine Folge aus Absicht, Slot-Typ und Slot-Wert für gegebene Eingabesprache während der Inferenz generieren. Die experimentellen Ergebnisse auf zwei öffentlichen Korpora zeigen, dass unser Ansatz zum E2E-SLU dem herkömmlichen kaskadierten Verfahren überlegen ist. Zudem erreicht er die derzeit besten Ansätze zum E2E-SLU mit deutlich weniger gepaarten Daten.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Sprach-Sprach-Vortrainierung für end-to-end gesprochene Sprachverstehens | Paper | HyperAI