il y a 7 jours

VindLU : Une Recette pour un Prétraining Efficace Vidéo- et Langage

Feng Cheng, Xizi Wang, Jie Lei, David Crandall, Mohit Bansal, Gedas Bertasius

Résumé

Les dernières années ont vu des progrès remarquables dans le domaine de la compréhension vidéo-langage (VidL). Toutefois, la plupart des approches modernes de VidL reposent sur des architectures de modèles complexes et spécialisées, ainsi que sur des protocoles de préentraînement sophistiqués, ce qui rend la reproductibilité, l’analyse et les comparaisons entre ces cadres difficiles. Ainsi, au lieu de proposer un nouveau modèle VidL, ce papier présente une étude empirique approfondie visant à dissiper les mystères entourant les facteurs les plus importants dans la conception des modèles VidL. Parmi les facteurs étudiés figurent : (i) la conception de l’architecture spatio-temporelle, (ii) les schémas de fusion multimodale, (iii) les objectifs de préentraînement, (iv) le choix des données d’entraînement, (v) les protocoles de préentraînement et de fine-tuning, et (vi) l’échelle des données et des modèles. Notre étude empirique révèle que les facteurs de conception les plus importants sont : la modélisation temporelle, la fusion multimodale vidéo-texte, les objectifs de modélisation masquée, ainsi que l’entraînement conjoint sur des images et des vidéos. À partir de ces observations empiriques, nous proposons une recette progressive, baptisée VindLU, pour un préentraînement efficace en VidL. Le modèle final entraîné selon cette recette atteint des résultats comparables ou supérieurs à l’état de l’art sur plusieurs tâches VidL, sans recourir à un préentraînement externe CLIP. En particulier, sur la tâche de recherche vidéo à partir de texte, notre approche obtient 61,2 % sur DiDeMo et 55,0 % sur ActivityNet, dépassant respectivement l’état de l’art actuel de 7,8 points et 6,1 points. En outre, notre modèle obtient également des résultats de pointe en réponse aux questions vidéo sur ActivityNet-QA, MSRVTT-QA, MSRVTT-MC et TVQA. Le code source et les modèles préentraînés sont disponibles publiquement à l’adresse suivante : https://github.com/klauscc/VindLU.