Sequentielle End-to-End-Intention- und Slot-Label-Klassifikation sowie Lokalisierung

Die Mensch-Computer-Interaktion (HCI) wird erheblich durch Verzögerungen beeinflusst, die von einem sprachbasierten Dialogsystem ausgehen. Daher wurden kürzlich end-to-end (e2e)-Ansätze für die sprachliche Verständnisverarbeitung (Spoken Language Understanding, SLU) vorgeschlagen, um die Latenz zu verringern. Diese Ansätze ermöglichen die direkte Extraktion semantischer Informationen aus dem Sprachsignal und umgehen somit den Bedarf an einer Transkription durch ein automatisches Spracherkennungssystem (Automatic Speech Recognition, ASR). In diesem Artikel präsentieren wir eine kompakte e2e-SLU-Architektur für Streaming-Szenarien, bei denen kontinuierlich Sprachsignalklumpen verarbeitet werden, um Absicht und Slot-Werte vorherzusagen. Unser Modell basiert auf einem dreidimensionalen Faltungsneuralen Netzwerk (3D-CNN) und einem einseitigen Langzeitgedächtnis-Netzwerk (unidirektionaler LSTM). Wir vergleichen die Leistung zweier alignmentsfreier Verlustfunktionen: der Connectionist Temporal Classification (CTC) und ihrer adaptierten Variante, der Connectionist Temporal Localization (CTL). Letztere führt nicht nur eine Klassifikation, sondern auch eine Lokalisierung sequenzieller Audioereignisse durch. Die vorgeschlagene Lösung wird auf dem Fluent Speech Command-Datensatz evaluiert. Die Ergebnisse zeigen, dass unser Modell in der Lage ist, eingehende Sprachsignale effizient zu verarbeiten und bei der Einzellabel-Klassifikation Genauigkeiten von bis zu 98,97 % (CTC) und 98,78 % (CTL) sowie bei der Zweilabel-Vorhersage Genauigkeiten von bis zu 95,69 % (CTC) und 95,28 % (CTL) erreicht.