vor 2 Monaten

Wo visuelle Sprache auf die Sprache trifft: VSP-LLM-Rahmen für effizientes und kontextbezogenes Verarbeitung von visueller Sprache

Yeo, Jeong Hun ; Han, Seunghee ; Kim, Minsu ; Ro, Yong Man

Abstract

Im Bereich der visuellen Sprachverarbeitung ist die Fähigkeit zur Kontextmodellierung eines der wichtigsten Anforderungen aufgrund der ambigen Natur von Lippenbewegungen. Zum Beispiel können Homophone, Wörter mit identischen Lippenbewegungen, aber unterschiedlichen Klängen, durch die Berücksichtigung des Kontextes voneinander unterschieden werden. In dieser Arbeit schlagen wir ein neues Framework vor, nämlich Visual Speech Processing integriert mit LLMs (VSP-LLM), um die Kontextmodellierungsfähigkeit durch den Einsatz der überwältigenden Leistungsfähigkeit von LLMs zu maximieren. Insbesondere ist VSP-LLM so konzipiert, dass es mehrere Aufgaben der visuellen Spracherkennung und -übersetzung ausführen kann, wobei die gegebenen Anweisungen die Art der Aufgabe steuern. Das Eingabevideo wird in den latenten Eingaberaum eines LLMs abgebildet, indem ein selbstüberwachtes visuelles Sprachmodell eingesetzt wird. Da in den Eingabebildern redundante Informationen vorhanden sind, schlagen wir eine neuartige Deduplizierungsmethode vor, die die eingebetteten visuellen Merkmale durch das Einsatz von visuellen Spracheinheiten reduziert. Durch die vorgeschlagene Deduplizierung und Low Rank Adaptation (LoRA) kann VSP-LLM auf effiziente Weise trainiert werden. Im Übersetzungsdatensatz MuAViC Benchmark zeigen wir, dass VSP-LLM bei nur 30 Stunden beschrifteter Daten effektiver Lippenbewegungen übersetzen kann als aktuelle Modelle, die mit 433 Stunden Daten trainiert wurden.