HyperAIHyperAI
vor 17 Tagen

Dual-Decoder Transformer für die gemeinsame automatische Spracherkennung und mehrsprachige Sprachübersetzung

Hang Le, Juan Pino, Changhan Wang, Jiatao Gu, Didier Schwab, Laurent Besacier
Dual-Decoder Transformer für die gemeinsame automatische Spracherkennung und mehrsprachige Sprachübersetzung
Abstract

Wir stellen den Dual-Decoder-Transformer vor, eine neue Modellarchitektur, die automatische Spracherkennung (ASR) und mehrsprachige Sprachübersetzung (ST) gemeinsam durchführt. Unsere Modelle basieren auf der ursprünglichen Transformer-Architektur (Vaswani et al., 2017), bestehen jedoch aus zwei Decodern, von denen jeder für eine der beiden Aufgaben (ASR oder ST) zuständig ist. Unser Hauptbeitrag liegt in der Art und Weise, wie diese Decodern miteinander interagieren: Ein Decoder kann über eine Dual-Attention-Mechanismus auf unterschiedliche Informationsquellen des anderen Decoders zugreifen. Wir schlagen zwei Varianten dieser Architektur vor, die zwei verschiedenen Abhängigkeitsniveaus zwischen den Decodern entsprechen, und bezeichnen sie als parallelen und kreuzweise verbundenen Dual-Decoder-Transformer. Umfangreiche Experimente auf dem MuST-C-Datensatz zeigen, dass unsere Modelle die bisher höchsten Übersetzungsleistungen in mehrsprachigen Szenarien überbieten und zudem auch die Ergebnisse für ein-zu-eins-Übersetzungen in zweisprachigen Settings erreichen. Darüber hinaus zeigen unsere parallelen Modelle gegenüber der herkömmlichen Multi-Task-Architektur keinen Kompromiss zwischen ASR und ST. Unsere Code-Implementierung und vortrainierten Modelle sind unter https://github.com/formiel/speech-translation verfügbar.

Dual-Decoder Transformer für die gemeinsame automatische Spracherkennung und mehrsprachige Sprachübersetzung | Neueste Forschungsarbeiten | HyperAI