HyperAIHyperAI

Command Palette

Search for a command to run...

Wo visuelle Sprache auf die Sprache trifft: VSP-LLM-Rahmen für effizientes und kontextbezogenes Verarbeitung von visueller Sprache

Jeong Hun Yeo* Seunghee Han* Minsu Kim Yong Man Ro†

Zusammenfassung

Im Bereich der visuellen Sprachverarbeitung ist die Fähigkeit zur Kontextmodellierung eines der wichtigsten Anforderungen aufgrund der ambigen Natur von Lippenbewegungen. Zum Beispiel können Homophone, Wörter mit identischen Lippenbewegungen, aber unterschiedlichen Klängen, durch die Berücksichtigung des Kontextes voneinander unterschieden werden. In dieser Arbeit schlagen wir ein neues Framework vor, nämlich Visual Speech Processing integriert mit LLMs (VSP-LLM), um die Kontextmodellierungsfähigkeit durch den Einsatz der überwältigenden Leistungsfähigkeit von LLMs zu maximieren. Insbesondere ist VSP-LLM so konzipiert, dass es mehrere Aufgaben der visuellen Spracherkennung und -übersetzung ausführen kann, wobei die gegebenen Anweisungen die Art der Aufgabe steuern. Das Eingabevideo wird in den latenten Eingaberaum eines LLMs abgebildet, indem ein selbstüberwachtes visuelles Sprachmodell eingesetzt wird. Da in den Eingabebildern redundante Informationen vorhanden sind, schlagen wir eine neuartige Deduplizierungsmethode vor, die die eingebetteten visuellen Merkmale durch das Einsatz von visuellen Spracheinheiten reduziert. Durch die vorgeschlagene Deduplizierung und Low Rank Adaptation (LoRA) kann VSP-LLM auf effiziente Weise trainiert werden. Im Übersetzungsdatensatz MuAViC Benchmark zeigen wir, dass VSP-LLM bei nur 30 Stunden beschrifteter Daten effektiver Lippenbewegungen übersetzen kann als aktuelle Modelle, die mit 433 Stunden Daten trainiert wurden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp