HyperAIHyperAI
vor 17 Tagen

Zweistufige textuelle Wissensdistanzierung für die end-to-end Sprachverstehensaufgabe

Seongbin Kim, Gyuwan Kim, Seongjin Shin, Sangmin Lee
Zweistufige textuelle Wissensdistanzierung für die end-to-end Sprachverstehensaufgabe
Abstract

End-to-end-Ansätze eröffnen einen neuen Weg für genauere und effizientere Systeme zur gesprochenen Sprachverstehens (Spoken Language Understanding, SLU), indem sie die Nachteile herkömmlicher Pipeline-Systeme verringern. Bisherige Ansätze nutzen textuelle Informationen für ein SLU-Modell durch Vortrainieren mit automatischer Spracherkennung oder Feinabstimmung mittels Wissensdistillation. Um textuelle Informationen effektiver zu nutzen, schlagen wir eine zweistufige Methode der Wissensdistillation auf Textbasis vor, die in der Phase des Vortrainings und der Feinabstimmung nacheinander die Äußerungslevel-Repräsentationen und die vorhergesagten Logits zweier Modalitäten aneinander anpasst. Als Sprachencoder verwenden wir vq-wav2vec BERT, da er allgemeine und reichhaltige Merkmale erfasst. Zudem verbessern wir die Leistung, insbesondere in Szenarien mit geringen Ressourcen, durch Datenverstärkungsmethoden, indem wir zufällig Abschnitte diskreter Audio-Tokens und kontextualisierter versteckter Repräsentationen maskieren. Dadurch erreichen wir den aktuellen Stand der Technik bei Fluent Speech Commands mit einer Testgenauigkeit von 99,7 % im vollständigen Datensatz und 99,5 % im 10%-Unterdatensatz. In umfassenden Ablationsstudien bestätigen wir empirisch, dass alle eingesetzten Methoden entscheidend für die Endleistung sind und legen damit eine bewährte Praxis für das gesprochene Sprachverstehen fest. Der Quellcode ist unter https://github.com/clovaai/textual-kd-slu verfügbar.