HyperAIHyperAI
il y a 17 jours

HierVL : Apprentissage d'embeddings vidéo-langage hiérarchiques

Kumar Ashutosh, Rohit Girdhar, Lorenzo Torresani, Kristen Grauman
HierVL : Apprentissage d'embeddings vidéo-langage hiérarchiques
Résumé

Les embeddings vidéo-langage constituent une voie prometteuse pour injecter des significations dans les représentations visuelles, mais les méthodes existantes ne captent que des associations à court terme entre des extraits vidéo de quelques secondes et leurs descriptions textuelles associées. Nous proposons HierVL, un nouvel embedding vidéo-langage hiérarchique qui prend simultanément en compte à la fois les associations à long terme et à court terme. Pour l'entraînement, nous utilisons des vidéos accompagnées de descriptions textuelles chronométrées des actions humaines, ainsi qu’un résumé textuel de haut niveau décrivant l’activité globale sur la durée de la vidéo (tel qu’il est disponible dans Ego4D). Nous introduisons une fonction d’entraînement contrastive hiérarchique qui encourage l’alignement texte-visuel à la fois au niveau des clips et au niveau de la vidéo entière. Alors que les contraintes au niveau des clips exploitent les descriptions pas à pas pour capturer ce qui se produit à un instant donné, les contraintes au niveau de la vidéo utilisent le texte résumé pour capturer la raison pour laquelle cela se produit, c’est-à-dire le contexte plus large de l’activité et l’intention de l’acteur. Notre approche hiérarchique permet d’obtenir une représentation de clips surpassant celle de ses homologues à un seul niveau, ainsi qu’une représentation vidéo à long terme atteignant des résultats état-de-l’art sur des tâches nécessitant un modélisation vidéo à long terme. HierVL se transfère efficacement à plusieurs tâches descendantes exigeantes (EPIC-KITCHENS-100, Charades-Ego, HowTo100M), tant dans des scénarios zero-shot que dans des configurations d’ajustement fin (fine-tuning).