HyperAIHyperAI
vor 17 Tagen

MMSpeech: Multimodales Multiaufgaben-Encoder-Decoder-Vortrainierungsverfahren für die Spracherkennung

Xiaohuan Zhou, Jiaming Wang, Zeyu Cui, Shiliang Zhang, Zhijie Yan, Jingren Zhou, Chang Zhou
MMSpeech: Multimodales Multiaufgaben-Encoder-Decoder-Vortrainierungsverfahren für die Spracherkennung
Abstract

In diesem Paper stellen wir einen neuartigen mehrmodalen, mehraufgabenbasierten Encoder-Decoder-Vorstudierungsansatz (MMSpeech) für die chinesische Sprache (Mandarin) im Bereich der automatischen Spracherkennung (ASR) vor, der sowohl unlabeled Sprach- als auch Textdaten nutzt. Die zentrale Schwierigkeit bei der gemeinsamen Vorstudierung von Sprache und Text resultiert aus den erheblichen Unterschieden zwischen den beiden Modalitäten, insbesondere im Fall von Mandarin-Sprache und -Text. Im Gegensatz zu Englisch und anderen Sprachen mit einem alphabetischen Schriftsystem verwendet Mandarin ein ideographisches Schriftsystem, bei dem Zeichen und Laute nicht eng miteinander verknüpft sind. Daher schlagen wir vor, die Phonem-Modality in den Vorstudierungsprozess einzubinden, um modality-invariante Informationen zwischen Mandarin-Sprache und -Text besser erfassen zu können. Konkret setzen wir einen mehraufgabenbasierten Lernansatz ein, der fünf selbstüberwachte und überwachte Aufgaben mit Sprach- und Textdaten umfasst. Für die end-to-end-Vorstudierung führen wir selbstüberwachte Aufgaben zur Sprache-zu-Pseudocodes-Übertragung (S2C) und zur Phonem-zu-Text-Übertragung (P2T) ein, die unlabeled Sprach- und Textdaten nutzen. Dabei dienen die Paare aus Sprach-Pseudocodes und Phonem-Text als Ergänzung zu den überwachten Sprach-Text-Paaren. Um den Encoder zu befähigen, verbesserte Sprachrepräsentationen zu lernen, führen wir selbstüberwachte Aufgaben zur maskierten Sprachvorhersage (MSP) sowie überwachte Aufgaben zur Phonemvorhersage (PP) ein, um die Abbildung von Sprache auf Phoneme zu erlernen. Darüber hinaus integrieren wir direkt die nachgeschaltete überwachte Aufgabe Sprache-zu-Text (S2T) in den Vorstudierungsprozess, was die Vorstudierungsleistung weiter verbessert und bereits ohne Nachjustierung (Fine-tuning) bessere Erkennungsergebnisse ermöglicht. Experimente an der AISHELL-1-Datenbank zeigen, dass unsere vorgeschlagene Methode eine state-of-the-art-Leistung erzielt, wobei eine relative Verbesserung von mehr als 40 % gegenüber anderen Vorstudierungsansätzen erreicht wird.