AUFGABENBEOBACHTENDE MEHRZWECK-LERNVERFAHREN FÜR SPRACHE-ZU-TEXT-AUFGABEN
Im Allgemeinen wird die direkte Sprache-zu-Text-Übersetzung (Speech-to-Text, ST) gemeinsam mit den Aufgaben Automatic Speech Recognition (ASR) und Machine Translation (MT) trainiert. Allerdings behindern die aktuellen gemeinsamen Lernstrategien die Wissensübertragung zwischen diesen Aufgaben. Wir schlagen ein Task-Modulation-Netzwerk vor, das es dem Modell ermöglicht, gleichzeitig aufgabenbezogene Merkmale zu lernen und gemeinsame Merkmale zu erfassen. Durch diesen Ansatz entfällt die Notwendigkeit eines separaten Feinabstimmungsschritts, wodurch ein einziges Modell entsteht, das alle drei Aufgaben erfüllt. Dieses einheitliche Modell erreicht eine BLEU-Score von 28,64 auf der ST-MuST-C-Aufgabe Englisch-Deutsch, einen WER von 11,61 % auf dem ASR-TEDLium-v3-Datensatz sowie einen BLEU-Score von 23,35 auf der MT-Aufgabe WMT’15 Englisch-Deutsch. Damit erreicht das Modell eine neue State-of-the-Art-Leistung (SOTA) bei der ST-Aufgabe und übertrifft dabei bestehende end-to-end-ASR-Systeme.