Integration vorgezeichneter Netzwerke mit einer kontinuierlichen Token-Schnittstelle für verständnisbasierte Sprachverarbeitung in Echtzeit

Die meisten End-to-End (E2E)-SLU-Netzwerke stützen sich auf vortrainierte ASR-Netzwerke, verfügen jedoch weiterhin nicht über die Fähigkeit, die Semantik von Äußerungen zu verstehen, was für die SLU-Aufgabe entscheidend ist. Um dieses Problem zu lösen, haben kürzlich vorgeschlagene Studien vortrainierte NLU-Netzwerke eingesetzt. Es ist jedoch nicht trivial, beide vortrainierten Netzwerke vollständig zu nutzen; hierfür wurden zahlreiche Ansätze vorgeschlagen, wie beispielsweise Knowledge Distillation, gemeinsame multimodale Embeddings oder die Integration von Netzwerken mittels Interface. Wir stellen eine einfache und robuste Integrationsmethode für E2E-SLU-Netzwerke vor, die ein neuartiges Interface namens Continuous Token Interface (CTI) verwendet – eine junctionale Darstellung zwischen ASR- und NLU-Netzwerken, sofern beide mit demselben Vokabular vortrainiert wurden. Da sich die beiden Netzwerke lediglich in der Rauschintensität unterscheiden, übergeben wir die Ausgabe des ASR-Netzwerks direkt an das NLU-Netzwerk. Dadurch können wir unser SLU-Netzwerk auf einfache Weise end-to-end trainieren, ohne zusätzliche Module wie Gumbel-Softmax einzusetzen. Wir evaluieren unser Modell anhand des anspruchsvollen SLU-Datensatzes SLURP und erreichen dabei state-of-the-art-Ergebnisse sowohl bei der Absichtsklassifikation als auch bei der Slot-Füllung. Zudem bestätigen wir, dass ein NLU-Netzwerk, das mit einem Masked Language Model vortrainiert wurde, eine rauschbehaftete textuelle Darstellung mittels CTI effektiv nutzen kann. Darüber hinaus zeigen wir, dass unser Modell auch mit Multi-Task-Learning aus heterogenen Daten trainiert werden kann, selbst nach der Integration mittels CTI.