HyperAIHyperAI

Command Palette

Search for a command to run...

Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition mit LLMs durch das Lernen von sprachunabhängigen Sprachrepräsentationen

Jeong Hun Yeo Minsu Kim Chae Won Kim Stavros Petridis Yong Man Ro

Zusammenfassung

Wir untersuchen einen neuartigen zero-shot Audio-Visual Speech Recognition (AVSR)-Ansatz, der als Zero-AVSR bezeichnet wird und die Spracherkennung in Zielsprachen ermöglicht, ohne dass audio-visuelle Sprachdaten in diesen Sprachen erforderlich sind. Konkret führen wir den Audio-Visual Speech Romanizer (AV-Romanizer) ein, der sprachunabhängige Sprachrepräsentationen durch die Vorhersage von lateinischer Schrift (Roman text) erlernt. Anschließend nutzen wir die starken multilingualen Modellierungsfähigkeiten großer Sprachmodelle (Large Language Models, LLMs), um den vorhergesagten Roman-Text in sprachspezifische Grapheme zu transformieren, wodurch der vorgeschlagene kaskadierte Zero-AVSR entsteht. Weitergehend erforschen wir einen einheitlichen Zero-AVSR-Ansatz, indem wir die audio-visuellen Sprachrepräsentationen, die vom AV-Romanizer kodiert wurden, direkt in das LLM integrieren. Dies wird durch das Fine-Tuning von Adaptern und dem LLM unter Verwendung unseres vorgeschlagenen Multi-Task-Lernansatzes erreicht. Um die breite Bandbreite an phonetischer und linguistischer Vielfalt abzubilden, führen wir außerdem eine multilinguale audio-visuelle Romanisierungs-Korpus (Multilingual Audio-Visual Romanized Corpus, MARC) mit 2.916 Stunden audio-visueller Sprachdaten aus 82 Sprachen sowie Transkriptionen sowohl in sprachspezifischen Graphemen als auch in lateinischer Schrift ein. Ausführliche Analysen und Experimente bestätigen, dass der vorgeschlagene Zero-AVSR-Ansatz das Potenzial besitzt, die Sprachunterstützung über die während des Trainings des AV-Romanizers gesehenen Sprachen hinaus auszuweiten.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition mit LLMs durch das Lernen von sprachunabhängigen Sprachrepräsentationen | Paper | HyperAI