HyperAIHyperAI
il y a 2 mois

BT-Adapter : La conversation vidéo est possible sans l'ajustement des instructions vidéo

Ruyang Liu; Chen Li; Yixiao Ge; Ying Shan; Thomas H. Li; Ge Li
BT-Adapter : La conversation vidéo est possible sans l'ajustement des instructions vidéo
Résumé

Les récentes avancées dans les grands modèles de langage (LLM) ont stimulé divers progrès dans les agents de conversation image-langue, tandis que la construction d'un système de dialogue vidéo performant reste encore à explorer. Étant donné l'ampleur considérable des LLM et du modèle visuel de base, très peu de mémoire GPU est disponible pour faciliter une modélisation temporelle efficace, essentielle pour comprendre et fournir des commentaires sur les vidéos. À cet égard, nous proposons le Branching Temporal Adapter (BT-Adapter), une nouvelle méthode permettant d'étendre les modèles préentraînés image-langue au domaine vidéo. Plus précisément, le BT-Adapter agit comme une branche de modélisation temporelle plug-and-play associée au encodeur visuel préentraîné, qui est ajusté tout en conservant le modèle de base figé. Préentraîné une seule fois, le BT-Adapter peut être intégré sans heurt à tous les modèles de conversation image utilisant cette version de CLIP, permettant des conversations vidéo sans nécessiter d'instructions vidéo. De plus, nous avons développé une stratégie unique de masquage asymétrique des jetons au sein de la branche, avec des tâches d'entraînement spécifiquement conçues pour le BT-Adapter, facilitant ainsi une convergence plus rapide et des résultats améliorés. Grâce au BT-Adapter, nous sommes en mesure d'octroyer aux modèles existants de dialogue multimodal des capacités puissantes de compréhension vidéo sans engendrer un coût GPU excessif. Sans artifices superflus, le BT-Adapter atteint : (1) des résultats zero-shot parmi les meilleurs sur diverses tâches vidéo en utilisant plusieurs milliers d'heures GPU en moins ; (2) une meilleure performance que les chatbots vidéo actuels sans aucun ajustement basé sur des instructions vidéo ; (3) des résultats parmi les meilleurs en matière de conversation vidéo grâce à l'ajustement basé sur des instructions vidéo, surpassant largement les précédents états de l'art.