Command Palette
Search for a command to run...
BT-Adapter: Video-Gespräch ist ohne Video-Anweisungstuning möglich
BT-Adapter: Video-Gespräch ist ohne Video-Anweisungstuning möglich
Ruyang Liu Chen Li Yixiao Ge Thomas H. Li Ying Shan Ge Li
Zusammenfassung
Der jüngste Fortschritt bei großen Sprachmodellen (Large Language Models, LLM) hat verschiedene Verbesserungen bei Bild-Sprach-Konversationsagenten angeregt, während die Entwicklung eines effizienten videobasierten Dialogsystems noch in der Frühphase ist. Angesichts des umfangreichen Ausmaßes von LLM und visuellen Backbone-Modellen bleibt nur wenig GPU-Speicher für eine effektive zeitliche Modellierung übrig, die für das Verstehen und das Feedback zu Videos entscheidend ist. Zu diesem Zweck schlagen wir den Branching Temporal Adapter (BT-Adapter) vor, eine neuartige Methode zur Erweiterung von Bild-Sprach-Vorabtrainingsmodellen in den Videobereich. Insbesondere dient BT-Adapter als ein einsteckbares Modul zur zeitlichen Modellierung neben dem vorab trainierten visuellen Encoder, wobei der Backbone gefroren bleibt. Nach einem einzigen Vorabtraining kann BT-Adapter nahtlos in alle Bildkonversationsmodelle integriert werden, die diese Version von CLIP verwenden, was Video-Konversationen ohne Videoanweisungen ermöglicht. Darüber hinaus entwickeln wir eine einzigartige asymmetrische Token-Maskierungsstrategie innerhalb des Branches mit maßgeschneiderten Trainingsaufgaben für BT-Adapter, was eine schnellere Konvergenz und bessere Ergebnisse fördert. Dank BT-Adapter können wir bestehende multimodale Dialogmodelle mit starken Videoverarbeitungsfähigkeiten ausstatten, ohne übermäßige GPU-Kosten zu verursachen. Ohne zusätzliche Komplexität erreicht BT-Adapter:1. Stand der Technik ergebende zero-shot-Ergebnisse bei verschiedenen Videoaufgaben mit deutlich weniger GPU-Stunden.2. bessere Leistungen als aktuelle Videochatbots ohne Videoanweisungstuning.3. Stand der Technik ergebende Ergebnisse bei Videochats durch Videoanweisungstuning, die deutlich besser sind als frühere Spitzenleistungen (State-of-the-Art, SOTA).