SyncVSR: Daten-effiziente visuelle Spracherkennung mit end-to-end-Kreuzmodalen Audio-Token-Synchronisierung

Visuelle Spracherkennung (VSR) steht an der Schnittstelle zwischen Computer Vision und Spracherkennung und strebt danach, gesprochene Inhalte anhand visueller Hinweise zu interpretieren. Eine herausfordernde Aufgabe bei VSR ist die Anwesenheit von Homophenen – visuell ähnlichen Lippenbewegungen, die unterschiedliche Phoneme darstellen. Frühere Ansätze haben versucht, feingranulare Viseme durch die Angleichung visueller und auditiver Semantik zu unterscheiden, aber oft eine vollständige Synchronisation verfehlt. Um dies anzugehen, präsentieren wir SyncVSR, ein end-to-end Lernframework, das quantisiertes Audio für framebasierte multimodale Überwachung nutzt. Durch die Integration einer Projektionsebene, die die visuelle Darstellung mit akustischen Daten synchronisiert, lernt unser Encoder diskrete Audiotoken aus einem Videosequenz in nicht-sequentieller Weise zu generieren. SyncVSR zeigt Flexibilität in verschiedenen Aufgaben, Sprachen und Modalitäten auf Kosten eines Vorwärtspasses. Unsere empirischen Auswertungen zeigen nicht nur, dass es den Stand der Technik erreicht, sondern auch, dass es den Datenaufwand um bis zu neunfach reduziert.