HyperAIHyperAI

Command Palette

Search for a command to run...

HierVL : Apprentissage d'embeddings vidéo-langage hiérarchiques

Kumar Ashutosh Rohit Girdhar Lorenzo Torresani Kristen Grauman

Résumé

Les embeddings vidéo-langage constituent une voie prometteuse pour injecter des significations dans les représentations visuelles, mais les méthodes existantes ne captent que des associations à court terme entre des extraits vidéo de quelques secondes et leurs descriptions textuelles associées. Nous proposons HierVL, un nouvel embedding vidéo-langage hiérarchique qui prend simultanément en compte à la fois les associations à long terme et à court terme. Pour l'entraînement, nous utilisons des vidéos accompagnées de descriptions textuelles chronométrées des actions humaines, ainsi qu’un résumé textuel de haut niveau décrivant l’activité globale sur la durée de la vidéo (tel qu’il est disponible dans Ego4D). Nous introduisons une fonction d’entraînement contrastive hiérarchique qui encourage l’alignement texte-visuel à la fois au niveau des clips et au niveau de la vidéo entière. Alors que les contraintes au niveau des clips exploitent les descriptions pas à pas pour capturer ce qui se produit à un instant donné, les contraintes au niveau de la vidéo utilisent le texte résumé pour capturer la raison pour laquelle cela se produit, c’est-à-dire le contexte plus large de l’activité et l’intention de l’acteur. Notre approche hiérarchique permet d’obtenir une représentation de clips surpassant celle de ses homologues à un seul niveau, ainsi qu’une représentation vidéo à long terme atteignant des résultats état-de-l’art sur des tâches nécessitant un modélisation vidéo à long terme. HierVL se transfère efficacement à plusieurs tâches descendantes exigeantes (EPIC-KITCHENS-100, Charades-Ego, HowTo100M), tant dans des scénarios zero-shot que dans des configurations d’ajustement fin (fine-tuning).


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp