HyperAIHyperAI

Command Palette

Search for a command to run...

SyncVSR: Daten-effiziente visuelle Spracherkennung mit end-to-end-Kreuzmodalen Audio-Token-Synchronisierung

Young Jin Ahn Jungwoo Park Sangha Park Jonghyun Choi Kee-Eung Kim

Zusammenfassung

Visuelle Spracherkennung (VSR) steht an der Schnittstelle zwischen Computer Vision und Spracherkennung und strebt danach, gesprochene Inhalte anhand visueller Hinweise zu interpretieren. Eine herausfordernde Aufgabe bei VSR ist die Anwesenheit von Homophenen – visuell ähnlichen Lippenbewegungen, die unterschiedliche Phoneme darstellen. Frühere Ansätze haben versucht, feingranulare Viseme durch die Angleichung visueller und auditiver Semantik zu unterscheiden, aber oft eine vollständige Synchronisation verfehlt. Um dies anzugehen, präsentieren wir SyncVSR, ein end-to-end Lernframework, das quantisiertes Audio für framebasierte multimodale Überwachung nutzt. Durch die Integration einer Projektionsebene, die die visuelle Darstellung mit akustischen Daten synchronisiert, lernt unser Encoder diskrete Audiotoken aus einem Videosequenz in nicht-sequentieller Weise zu generieren. SyncVSR zeigt Flexibilität in verschiedenen Aufgaben, Sprachen und Modalitäten auf Kosten eines Vorwärtspasses. Unsere empirischen Auswertungen zeigen nicht nur, dass es den Stand der Technik erreicht, sondern auch, dass es den Datenaufwand um bis zu neunfach reduziert.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp