Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition mit LLMs durch das Lernen von sprachunabhängigen Sprachrepräsentationen

Wir untersuchen einen neuartigen zero-shot Audio-Visual Speech Recognition (AVSR)-Ansatz, der als Zero-AVSR bezeichnet wird und die Spracherkennung in Zielsprachen ermöglicht, ohne dass audio-visuelle Sprachdaten in diesen Sprachen erforderlich sind. Konkret führen wir den Audio-Visual Speech Romanizer (AV-Romanizer) ein, der sprachunabhängige Sprachrepräsentationen durch die Vorhersage von lateinischer Schrift (Roman text) erlernt. Anschließend nutzen wir die starken multilingualen Modellierungsfähigkeiten großer Sprachmodelle (Large Language Models, LLMs), um den vorhergesagten Roman-Text in sprachspezifische Grapheme zu transformieren, wodurch der vorgeschlagene kaskadierte Zero-AVSR entsteht. Weitergehend erforschen wir einen einheitlichen Zero-AVSR-Ansatz, indem wir die audio-visuellen Sprachrepräsentationen, die vom AV-Romanizer kodiert wurden, direkt in das LLM integrieren. Dies wird durch das Fine-Tuning von Adaptern und dem LLM unter Verwendung unseres vorgeschlagenen Multi-Task-Lernansatzes erreicht. Um die breite Bandbreite an phonetischer und linguistischer Vielfalt abzubilden, führen wir außerdem eine multilinguale audio-visuelle Romanisierungs-Korpus (Multilingual Audio-Visual Romanized Corpus, MARC) mit 2.916 Stunden audio-visueller Sprachdaten aus 82 Sprachen sowie Transkriptionen sowohl in sprachspezifischen Graphemen als auch in lateinischer Schrift ein. Ausführliche Analysen und Experimente bestätigen, dass der vorgeschlagene Zero-AVSR-Ansatz das Potenzial besitzt, die Sprachunterstützung über die während des Trainings des AV-Romanizers gesehenen Sprachen hinaus auszuweiten.