HyperAIHyperAI
vor 7 Tagen

Clover: Hin zu einem einheitlichen Video-Sprache-Ausrichtungs- und -Fusionsmodell

Jingjia Huang, Yinan Li, Jiashi Feng, Xinglong Wu, Xiaoshuai Sun, Rongrong Ji
Clover: Hin zu einem einheitlichen Video-Sprache-Ausrichtungs- und -Fusionsmodell
Abstract

Die Entwicklung eines universellen Video-Sprache-Modells zur Lösung verschiedener Aufgaben im Bereich der Video-Verständnis (z. B. Text-Video-Recherche, Video-Fragebeantwortung) stellt eine offene Herausforderung für das Gebiet des maschinellen Lernens dar. In diesem Zusammenhang bauen die meisten aktuellen Ansätze das Modell durch Stapelung von einmodalen und multimodalen Merkmals-Encodern auf und trainieren es mittels paarweiser kontrastiver Vortrainingsaufgaben. Obwohl diese Ansätze eine ansprechende Allgemeingültigkeit bieten, müssen sie zwangsläufig zwischen Effizienz und Leistung compromises machen. Häufig werden unterschiedliche Architekturen für verschiedene Downstream-Aufgaben eingesetzt. Wir stellen fest, dass dies darauf zurückzuführen ist, dass das paarweise Training die Merkmale aus verschiedenen Modalitäten nicht ausreichend ausrichtet und fusioniert. Daraufhin stellen wir \textbf{Clover}\textemdash eine korrelierte Video-Sprache-Vortrainingsmethode\textemdash vor, die darauf abzielt, ein universelles Video-Sprache-Modell zu entwickeln, das mehrere Aufgaben im Bereich der Video-Verständnis ohne Kompromiss in Leistung oder Effizienz lösen kann. Clover verbessert die Ausrichtung und Fusion multimodaler Merkmale durch eine neuartige dreimodale Ausrichtungsaufgabe im Vortraining. Zudem schlagen wir vor, die dreimodale Ausrichtung durch die Einbeziehung von Lernen aus semantisch maskierten Beispielen sowie durch eine neue paarweise Ranking-Verlustfunktion zu verstärken. Clover erreicht neue SOTA-Ergebnisse auf mehreren Downstream-Aufgaben, darunter drei Rechercheaufgaben sowohl im Zero-Shot- als auch im Fine-Tuning-Szenario sowie acht Aufgaben zur Video-Fragebeantwortung. Der Quellcode und die vortrainierten Modelle werden unter \url{https://github.com/LeeYN-43/Clover} veröffentlicht.