RTQ : Repenser la compréhension vidéo-langage à partir des modèles image-texte

Les progrès récents dans la compréhension vidéo-langage s'appuient sur les modèles image-texte, ce qui a permis d'obtenir des résultats prometteurs grâce aux connaissances partagées entre images et vidéos. Toutefois, la compréhension vidéo-langage soulève des défis uniques en raison de la présence de détails sémantiques extrêmement complexes, entraînant une redondance d'information, des dépendances temporelles et une complexité scénique. Les approches actuelles ont seulement partiellement abordé ces problèmes, et notre analyse quantitative indique que certaines de ces méthodes s'accommodent mutuellement. À la lumière de ces constatations, nous proposons un cadre novateur appelé RTQ (Refine, Temporal model, and Query), qui traite simultanément ces défis. Cette approche consiste à affiner l'information redondante au sein des cadres, à modéliser les relations temporelles entre cadres, et à interroger des informations spécifiques à la tâche à partir des vidéos. Notamment, notre modèle obtient des performances remarquables même en l'absence d'une pré-formation vidéo-langage, avec des résultats comparables ou supérieurs à ceux des méthodes pré-entraînées les plus avancées. Le code est disponible à l'adresse suivante : https://github.com/SCZwangxiao/RTQ-MM2023.