PPLLaVA : Compréhension Variée de Séquences Vidéo Avec la Guidance de Prompts

L'année écoulée a vu des progrès significatifs dans le domaine des grands modèles de langage basés sur la vidéo. Cependant, le défi de développer un modèle unifié pour la compréhension à la fois des vidéos courtes et longues reste en suspens. La plupart des modèles de langage vidéo existants ne peuvent pas traiter des vidéos d'une heure, tandis que les méthodes spécifiques aux vidéos longues sont généralement inefficaces pour les vidéos plus courtes et les images. Dans cet article, nous identifions le problème clé comme étant le contenu redondant dans les vidéos. Pour y remédier, nous proposons une nouvelle stratégie de regroupement qui réalise simultanément la compression des jetons et l'agrégation de caractéristiques visuelles sensibles aux instructions. Notre modèle est appelé Prompt-guided Pooling LLaVA, ou PPLLaVA pour faire court.Plus précisément, PPLLaVA comprend trois composantes essentielles : 1. L'alignement visuel guidé par CLIP qui extrait des informations visuelles pertinentes aux instructions de l'utilisateur,2. Le regroupement guidé par le prompt qui compresse la séquence visuelle à des échelles arbitraires en utilisant un regroupement de type convolutionnel,3. L'extension du contexte de clip conçue pour gérer les prompts longs couramment utilisés dans les dialogues visuels.De plus, notre base de code intègre également l'optimisation préférentielle directe (DPO) vidéo la plus avancée et l'entraînement alterné visuel. De nombreuses expériences ont validé les performances de notre modèle. Avec une meilleure efficacité et seulement 1024 contextes visuels, PPLLaVA obtient de meilleurs résultats sur les bancs d'essai d'images en tant que modèle de langage vidéo, tout en atteignant des performances d'état de l'art sur divers bancs d'essai vidéo, excellemment dans des tâches allant de la génération de légendes à des questions à choix multiples, et en gérant des durées vidéo allant de quelques secondes à plusieurs heures. Les codes sources sont disponibles à l'adresse suivante : https://github.com/farewellthree/PPLLaVA.