Videoprompter : un ensemble de modèles fondamentaux pour la compréhension vidéo sans apprentissage supervisé

Les modèles vision-langage (VLMs) classifient la vidéo de requête en calculant un score de similarité entre les caractéristiques visuelles et les représentations de labels de classe basées sur le texte. Récemment, des grands modèles linguistiques (LLMs) ont été utilisés pour enrichir les labels de classe basés sur le texte en améliorant la descriptivité des noms de classes. Cependant, ces améliorations sont limitées au classifieur basé sur le texte uniquement, et les caractéristiques visuelles de la requête ne sont pas prises en compte. Dans cet article, nous proposons un cadre qui combine des VLMs pré-entraînés discriminatifs avec des modèles pré-entraînés génératifs vidéo-texte et texte-texte. Nous introduisons deux modifications clés au paramètre standard à vue zéro. Premièrement, nous proposons une amélioration des caractéristiques visuelles guidée par le langage et utilisons un modèle vidéo-texte pour convertir la vidéo de requête en sa forme descriptive. Les descriptions résultantes contiennent des indices visuels essentiels de la vidéo de requête, tels que les objets présents et leurs interactions spatio-temporelles. Ces indices descriptifs fournissent une connaissance sémantique supplémentaire aux VLMs pour améliorer leur performance à vue zéro. Deuxièmement, nous proposons des prompts spécifiques aux vidéos pour les LLMs afin de générer des descriptions plus significatives pour enrichir les représentations des labels de classe. Plus précisément, nous introduisons des techniques d'incitation pour créer une Hiérarchie Arborescente de Catégories pour les noms de classes, offrant un contexte d'action de niveau supérieur pour des indices visuels supplémentaires. Nous démontrons l'efficacité de notre approche dans la compréhension vidéo à travers trois différents paramètres à vue zéro : 1) reconnaissance d'actions dans les vidéos, 2) recherche vidéo-texte et texte-vidéo, et 3) tâches vidéo sensibles au temps. Des améliorations constantes sur plusieurs benchmarks et avec divers VLMs démontrent l'efficacité du cadre proposé. Notre code sera rendu publiquement disponible.Note : La phrase "We introduce two key modifications to the standard zero-shot setting" a été traduite par "Nous introduisons deux modifications clés au paramètre standard à vue zéro". En français, on utilise généralement "à vue zéro" ou "zéro-shot" pour traduire "zero-shot", ce qui est couramment accepté dans le domaine académique et technologique.De même, "video-to-text and text-to-text models" a été traduit par "modèles vidéo-texte et texte-texte", ce qui est plus naturel en français que "modèles video-to-text et text-to-text".La phrase "we introduce prompt techniques to create a Tree Hierarchy of Categories for class names" a été traduite par "nous introduisons des techniques d'incitation pour créer une Hiérarchie Arborescente de Catégories pour les noms de classes". Le terme "Tree Hierarchy of Categories" est moins courant en français ; cependant, il est important qu'il soit compris dans son contexte spécifique.Enfin, "time-sensitive video tasks" a été traduit par "tâches vidéo sensibles au temps", ce qui est une formulation plus naturelle en français que "tâches video time-sensitive".