il y a 2 mois

Révéler le biais de cadre unique pour l'apprentissage vidéo-et-langue

Lei, Jie ; Berg, Tamara L. ; Bansal, Mohit

Résumé

L'entraînement d'un modèle vidéo-langage efficace nécessite intuitivement plusieurs images comme entrées du modèle. Cependant, il n'est pas clair si l'utilisation de plusieurs images est bénéfique pour les tâches en aval, et si oui, si le gain de performance justifie les coûts de calcul et de mémoire considérablement augmentés résultant de l'utilisation d'un plus grand nombre d'images. Dans cette étude, nous explorons les modèles à une seule image pour l'apprentissage vidéo-langage. Sur un ensemble varié de tâches vidéo-langage (y compris la recherche texte-vidéo et la réponse aux questions sur des vidéos), nous montrons le résultat surprenant que, avec un entraînement préalable à grande échelle et une stratégie appropriée d'agrégation d'images au moment de l'inférence, un modèle entraîné sur une seule image qui ne prend pas en compte les informations temporelles peut atteindre des performances supérieures aux méthodes existantes utilisant plusieurs images pour l'entraînement. Ce résultat révèle l'existence d'un fort biais statique d'apparence dans les jeux de données vidéo-langage populaires. Par conséquent, afin de permettre une évaluation plus complète des modèles vidéo-langage, nous proposons deux nouvelles tâches de recherche basées sur des jeux de données existants de reconnaissance fine-grainée d'actions qui encouragent la modélisation temporelle. Notre code est disponible à l'adresse https://github.com/jayleicn/singularity