HyperAIHyperAI

Command Palette

Search for a command to run...

Integration vorgezeichneter Netzwerke mit einer kontinuierlichen Token-Schnittstelle für verständnisbasierte Sprachverarbeitung in Echtzeit

Seunghyun Seo Donghyun Kwak Bowon Lee

Zusammenfassung

Die meisten End-to-End (E2E)-SLU-Netzwerke stützen sich auf vortrainierte ASR-Netzwerke, verfügen jedoch weiterhin nicht über die Fähigkeit, die Semantik von Äußerungen zu verstehen, was für die SLU-Aufgabe entscheidend ist. Um dieses Problem zu lösen, haben kürzlich vorgeschlagene Studien vortrainierte NLU-Netzwerke eingesetzt. Es ist jedoch nicht trivial, beide vortrainierten Netzwerke vollständig zu nutzen; hierfür wurden zahlreiche Ansätze vorgeschlagen, wie beispielsweise Knowledge Distillation, gemeinsame multimodale Embeddings oder die Integration von Netzwerken mittels Interface. Wir stellen eine einfache und robuste Integrationsmethode für E2E-SLU-Netzwerke vor, die ein neuartiges Interface namens Continuous Token Interface (CTI) verwendet – eine junctionale Darstellung zwischen ASR- und NLU-Netzwerken, sofern beide mit demselben Vokabular vortrainiert wurden. Da sich die beiden Netzwerke lediglich in der Rauschintensität unterscheiden, übergeben wir die Ausgabe des ASR-Netzwerks direkt an das NLU-Netzwerk. Dadurch können wir unser SLU-Netzwerk auf einfache Weise end-to-end trainieren, ohne zusätzliche Module wie Gumbel-Softmax einzusetzen. Wir evaluieren unser Modell anhand des anspruchsvollen SLU-Datensatzes SLURP und erreichen dabei state-of-the-art-Ergebnisse sowohl bei der Absichtsklassifikation als auch bei der Slot-Füllung. Zudem bestätigen wir, dass ein NLU-Netzwerk, das mit einem Masked Language Model vortrainiert wurde, eine rauschbehaftete textuelle Darstellung mittels CTI effektiv nutzen kann. Darüber hinaus zeigen wir, dass unser Modell auch mit Multi-Task-Learning aus heterogenen Daten trainiert werden kann, selbst nach der Integration mittels CTI.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Integration vorgezeichneter Netzwerke mit einer kontinuierlichen Token-Schnittstelle für verständnisbasierte Sprachverarbeitung in Echtzeit | Paper | HyperAI