PLLaVA : Extension de LLaVA sans paramètre des images aux vidéos pour la captioning dense vidéo

L'entraînement préalable vision-langage a considérablement amélioré les performances dans une large gamme d'applications liant images et langage. Cependant, le processus d'entraînement préalable pour les tâches vidéo nécessite des ressources informatiques et de données exceptionnellement importantes, ce qui entrave le progrès des modèles vidéo-langage. Ce papier examine une approche simple, très efficace et peu gourmande en ressources pour adapter un modèle pré-entraîné existant sur l'image-langage à la compréhension dense de vidéos. Nos expériences préliminaires montrent que l'affinage direct des modèles pré-entraînés image-langage avec plusieurs images comme entrées sur des jeux de données vidéo conduit à une saturation des performances ou même à une baisse. Notre enquête ultérieure révèle que cela est principalement attribuable au biais des caractéristiques visuelles apprises à haute norme. Inspirés par cette découverte, nous proposons une stratégie de poolage simple mais efficace pour lisser la distribution des caractéristiques le long de la dimension temporelle, réduisant ainsi l'influence dominante des caractéristiques extrêmes. Le nouveau modèle est appelé Pooling LLaVA, ou PLLaVA pour faire court. PLLaVA atteint de nouvelles performances de pointe sur les jeux de données modernes pour les tâches de questions-réponses et de légendage vidéo. Notamment, sur le récent benchmark Video ChatGPT populaire, PLLaVA obtient une note moyenne de 3,48 sur 5 dans cinq dimensions évaluées, dépassant les résultats précédents SOTA (State Of The Art) de GPT4V (IG-VLM) de 9 %. Sur le dernier benchmark à choix multiples MVBench, PLLaVA atteint une précision moyenne de 58,1 % sur 20 sous-tâches, soit 14,5 % de plus que GPT4V (IG-VLM). Le code est disponible à l'adresse suivante : https://github.com/magic-research/PLLaVA.