HyperAIHyperAI

Command Palette

Search for a command to run...

VideoCLIP : Pré-entraînement contrastif pour la compréhension vidéo-texte sans supervision

Hu Xu Gargi Ghosh Po-Yao Huang Dmytro Okhonko Armen Aghajanyan Florian Metze Luke Zettlemoyer Christoph Feichtenhofer

Résumé

Nous présentons VideoCLIP, une approche par contraste pour pré-entraîner un modèle unifié permettant la compréhension zéro-shot de vidéos et de texte, sans utiliser aucune étiquette pour les tâches en aval. VideoCLIP entraîne un transformateur pour la vidéo et le texte en confrontant des paires vidéo-texte positives se chevauchant temporellement avec des négatifs difficiles issus d'une recherche par plus proches voisins. Nos expériences sur une série diversifiée de tâches en aval, incluant la recherche vidéo-texte au niveau séquentiel, VideoQA, la localisation d'actions au niveau des jetons (token-level) et le segmentage d'actions, révèlent des performances de pointe, surpassant les travaux précédents, et dans certains cas même dépassant les approches supervisées. Le code est disponible à l'adresse suivante : https://github.com/pytorch/fairseq/tree/main/examples/MMPT.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
VideoCLIP : Pré-entraînement contrastif pour la compréhension vidéo-texte sans supervision | Articles | HyperAI