HyperAIHyperAI
vor 2 Monaten

VLAB: Verbesserung der Video-Sprach-Vorverarbeitung durch Merkmalsanpassung und -vermischung

Xingjian He; Sihan Chen; Fan Ma; Zhicheng Huang; Xiaojie Jin; Zikang Liu; Dongmei Fu; Yi Yang; Jing Liu; Jiashi Feng
VLAB: Verbesserung der Video-Sprach-Vorverarbeitung durch Merkmalsanpassung und -vermischung
Abstract

Großmaßstäbliche Bild-Text-Kontrastprätrainingsmodelle wie CLIP haben gezeigt, dass sie effektiv hochwertige multimodale Repräsentationen lernen können. Allerdings gibt es nur begrenzte Forschung zur Lernung von Video-Text-Repräsentationen für allgemeine Video-Multimodalitätsaufgaben auf Basis dieser leistungsfähigen Merkmale. Um diesem Ziel näher zu kommen, schlagen wir eine neuartige Video-Text-Prätrainingsmethode vor, die als VLAB (Video Language pre-training by feature Adapting and Blending) bezeichnet wird. Diese Methode überträgt CLIP-Repräsentationen auf Video-Prätrainingsaufgaben und entwickelt einheitliche Video-Multimodalitätsmodelle für eine Vielzahl von Video-Text-Aufgaben. Insbesondere basiert VLAB auf zwei zentralen Strategien: Merkmalsanpassung (feature adapting) und Merkmalsverschmelzung (feature blending). Bei der ersten Strategie führen wir ein neues Videoadaptermodul ein, um CLIPs Mangel an der Modellierung zeitlicher Informationen zu beheben und die Fähigkeiten des Modells zu erweitern, sowohl kontrastive als auch generative Aufgaben abzudecken. Bei der zweiten Strategie schlagen wir eine end-to-end Trainingsmethode vor, die durch die Ausnutzung der Komplementarität von Bild- und Videomerkmalen die Leistung des Modells weiter verbessert. Wir bestätigen die Effektivität und Vielseitigkeit von VLAB durch umfangreiche Experimente bei hochwettbewerbsfähigen Video-Multimodalitätsaufgaben, darunter Video-Text-Retrieval, Video-Beschreibungserstellung und Video-Fragebeantwortung. Bemerkenswerterweise übertrifft VLAB die Konkurrenzmethoden erheblich und setzt neue Rekorde in der Video-Fragebeantwortung auf den Datensätzen MSRVTT, MSVD und TGIF. Es erreicht Genauigkeiten von 49,6 %, 61,0 % und 79,0 % jeweils. Der Code und die Modelle werden veröffentlicht werden.