Réexamen du terme « Vidéo » dans la compréhension vidéo-langage

Qu’est-ce qui rend une tâche vidéo particulièrement adaptée aux vidéos, au-delà de ce qui peut être compris à partir d’une seule image ? Partant des progrès récents réalisés dans les modèles d’image-langage auto-supervisés, nous revisitons cette question dans le cadre des tâches vidéo-langage. Nous proposons une nouvelle méthode, appelée sonde atemporelle (Atemporal Probe, ATP), un modèle destiné à l’analyse vidéo-langage qui fournit une borne supérieure plus rigoureuse sur la performance de base des modèles multimodaux contraints par une compréhension au niveau de l’image. En appliquant ce modèle à des tâches discriminatives standard en vidéo et langage — telles que la réponse à des questions sur des vidéos ou la recherche vidéo à partir de texte —, nous caractérisons les limites et le potentiel des benchmarks actuels en vidéo-langage. Nous constatons que la compréhension de la temporalité des événements n’est souvent pas nécessaire pour atteindre des performances fortes ou même des résultats de pointe, même en comparaison avec des modèles vidéo-langage à grande échelle récents, dans des contextes conçus pour évaluer une compréhension vidéo plus profonde. Nous démontrons également comment ATP peut améliorer à la fois la conception des jeux de données vidéo-langage et celle des modèles. Nous décrivons une technique permettant d’utiliser ATP pour mieux isoler des sous-ensembles de données présentant une concentration accrue de données temporellement complexes, ce qui améliore l’efficacité des évaluations en matière de compréhension causale et temporelle. En outre, nous montrons qu’une intégration efficace d’ATP dans des modèles complets de compréhension temporelle au niveau vidéo peut améliorer à la fois l’efficacité et la performance de pointe.