HyperAIHyperAI
il y a 17 jours

Figé dans le temps : un encodeur vidéo et image conjoint pour une recherche end-to-end

Max Bain, Arsha Nagrani, Gül Varol, Andrew Zisserman
Figé dans le temps : un encodeur vidéo et image conjoint pour une recherche end-to-end
Résumé

Notre objectif dans ce travail est la recherche vidéo-texte – plus précisément, la conception d’un embedding conjoint permettant une recherche efficace du texte vers la vidéo. Les défis dans ce domaine incluent la conception de l’architecture visuelle ainsi que la nature des données d’entraînement : les jeux de données vidéo-texte à grande échelle disponibles, tels que HowTo100M, sont bruyants, et des performances compétitives ne sont atteintes qu’à grande échelle grâce à des ressources informatiques importantes. Nous abordons ces deux défis dans cet article. Nous proposons un modèle entraînable end-to-end conçu pour tirer parti à la fois des grands jeux de données d’image et de vidéo avec légendes. Notre modèle constitue une adaptation et une extension des architectures récentes ViT et Timesformer, et intègre une attention à la fois dans l’espace et dans le temps. Il est flexible et peut être entraîné sur des jeux de données image-texte ou vidéo-texte, de manière indépendante ou conjointe. L’entraînement s’effectue selon une stratégie d’apprentissage par curriculum, commençant par traiter les images comme des instantanés « figés » de vidéos, puis progressivement apprenant à prendre en compte un contexte temporel croissant lors de l’entraînement sur des données vidéo. Nous présentons également un nouveau jeu de données pré-entraînement vidéo-texte, WebVid-2M, composé de plus de deux millions de vidéos accompagnées de légendes faibles extraites de l’internet. Malgré un entraînement sur des jeux de données d’une taille d’un ordre de grandeur inférieure, nous démontrons que cette approche permet d’obtenir des résultats de pointe sur des benchmarks standards de recherche vidéo, notamment MSR-VTT, MSVD, DiDeMo et LSMDC.