HyperAIHyperAI

Command Palette

Search for a command to run...

Sequentielle End-to-End-Intention- und Slot-Label-Klassifikation sowie Lokalisierung

Yiran Cao Nihal Potdar Anderson R. Avila

Zusammenfassung

Die Mensch-Computer-Interaktion (HCI) wird erheblich durch Verzögerungen beeinflusst, die von einem sprachbasierten Dialogsystem ausgehen. Daher wurden kürzlich end-to-end (e2e)-Ansätze für die sprachliche Verständnisverarbeitung (Spoken Language Understanding, SLU) vorgeschlagen, um die Latenz zu verringern. Diese Ansätze ermöglichen die direkte Extraktion semantischer Informationen aus dem Sprachsignal und umgehen somit den Bedarf an einer Transkription durch ein automatisches Spracherkennungssystem (Automatic Speech Recognition, ASR). In diesem Artikel präsentieren wir eine kompakte e2e-SLU-Architektur für Streaming-Szenarien, bei denen kontinuierlich Sprachsignalklumpen verarbeitet werden, um Absicht und Slot-Werte vorherzusagen. Unser Modell basiert auf einem dreidimensionalen Faltungsneuralen Netzwerk (3D-CNN) und einem einseitigen Langzeitgedächtnis-Netzwerk (unidirektionaler LSTM). Wir vergleichen die Leistung zweier alignmentsfreier Verlustfunktionen: der Connectionist Temporal Classification (CTC) und ihrer adaptierten Variante, der Connectionist Temporal Localization (CTL). Letztere führt nicht nur eine Klassifikation, sondern auch eine Lokalisierung sequenzieller Audioereignisse durch. Die vorgeschlagene Lösung wird auf dem Fluent Speech Command-Datensatz evaluiert. Die Ergebnisse zeigen, dass unser Modell in der Lage ist, eingehende Sprachsignale effizient zu verarbeiten und bei der Einzellabel-Klassifikation Genauigkeiten von bis zu 98,97 % (CTC) und 98,78 % (CTL) sowie bei der Zweilabel-Vorhersage Genauigkeiten von bis zu 95,69 % (CTC) und 95,28 % (CTL) erreicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp