BT-Adapter: Video-Gespräch ist ohne Video-Anweisungstuning möglich

Der jüngste Fortschritt bei großen Sprachmodellen (Large Language Models, LLM) hat verschiedene Verbesserungen bei Bild-Sprach-Konversationsagenten angeregt, während die Entwicklung eines effizienten videobasierten Dialogsystems noch in der Frühphase ist. Angesichts des umfangreichen Ausmaßes von LLM und visuellen Backbone-Modellen bleibt nur wenig GPU-Speicher für eine effektive zeitliche Modellierung übrig, die für das Verstehen und das Feedback zu Videos entscheidend ist. Zu diesem Zweck schlagen wir den Branching Temporal Adapter (BT-Adapter) vor, eine neuartige Methode zur Erweiterung von Bild-Sprach-Vorabtrainingsmodellen in den Videobereich. Insbesondere dient BT-Adapter als ein einsteckbares Modul zur zeitlichen Modellierung neben dem vorab trainierten visuellen Encoder, wobei der Backbone gefroren bleibt. Nach einem einzigen Vorabtraining kann BT-Adapter nahtlos in alle Bildkonversationsmodelle integriert werden, die diese Version von CLIP verwenden, was Video-Konversationen ohne Videoanweisungen ermöglicht. Darüber hinaus entwickeln wir eine einzigartige asymmetrische Token-Maskierungsstrategie innerhalb des Branches mit maßgeschneiderten Trainingsaufgaben für BT-Adapter, was eine schnellere Konvergenz und bessere Ergebnisse fördert. Dank BT-Adapter können wir bestehende multimodale Dialogmodelle mit starken Videoverarbeitungsfähigkeiten ausstatten, ohne übermäßige GPU-Kosten zu verursachen. Ohne zusätzliche Komplexität erreicht BT-Adapter:1. Stand der Technik ergebende zero-shot-Ergebnisse bei verschiedenen Videoaufgaben mit deutlich weniger GPU-Stunden.2. bessere Leistungen als aktuelle Videochatbots ohne Videoanweisungstuning.3. Stand der Technik ergebende Ergebnisse bei Videochats durch Videoanweisungstuning, die deutlich besser sind als frühere Spitzenleistungen (State-of-the-Art, SOTA).