HyperAIHyperAI

Command Palette

Search for a command to run...

LanguageBind : Étendre la préformation vidéo-langue à N-modalités par alignement sémantique basé sur le langage

Bin Zhu; Bin Lin; Munan Ning; Yang Yan; Jiaxi Cui; HongFa Wang; Yatian Pang; Wenhao Jiang; Junwu Zhang; Zongwei Li; Wancai Zhang; Zhifeng Li; Wei Liu; Li Yuan

Résumé

Le préentraînement vidéo-langage (VL) a réalisé des améliorations remarquables dans de nombreuses tâches en aval. Cependant, le cadre actuel de préentraînement VL est difficile à étendre à plusieurs modalités (N modalités, N≥3) au-delà de la vision et du langage. Nous proposons donc LanguageBind, une méthode qui utilise le langage comme élément de liaison entre différentes modalités, car la modalité langagière est bien explorée et contient des sémantiques riches. Plus précisément, nous gelons l'encodeur de langage acquis par le préentraînement VL, puis nous entraînons des encodeurs pour les autres modalités avec un apprentissage par contraste. En conséquence, toutes les modalités sont mappées vers un espace de caractéristiques partagé, réalisant ainsi une alignement sémantique multi-modalité. Bien que LanguageBind garantisse que nous pouvons étendre les modalités VL à N modalités, nous avons également besoin d'un ensemble de données de haute qualité comportant des paires d'alignement centrées sur le langage. Nous proposons donc VIDAL-10M, qui comprend des vidéos, des images infrarouges, des données de profondeur et des signaux audio ainsi que leurs descriptions textuelles correspondantes, ce que nous nommons VIDAL-10M. Dans notre VIDAL-10M, toutes les vidéos proviennent de plates-formes de vidéos courtes avec des sémantiques complètes plutôt que des segments tronqués provenant de vidéos longues, et toutes les modalités vidéo, profondeur, infrarouge et audio sont alignées sur leurs descriptions textuelles respectives. LanguageBind a obtenu des performances supérieures sur une large gamme de 15 benchmarks couvrant la vidéo, l'audio, la profondeur et l'infrarouge. De plus, plusieurs expériences ont fourni des preuves de l'efficacité de LanguageBind pour réaliser un alignement indirect et une complémentarité entre diverses modalités. Adresse du code : https://github.com/PKU-YuanGroup/LanguageBind


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp