LanguageBind : Étendre la préformation vidéo-langue à N-modalités par alignement sémantique basé sur le langage

Le préentraînement vidéo-langage (VL) a réalisé des améliorations remarquables dans de nombreuses tâches en aval. Cependant, le cadre actuel de préentraînement VL est difficile à étendre à plusieurs modalités (N modalités, N≥3) au-delà de la vision et du langage. Nous proposons donc LanguageBind, une méthode qui utilise le langage comme élément de liaison entre différentes modalités, car la modalité langagière est bien explorée et contient des sémantiques riches. Plus précisément, nous gelons l'encodeur de langage acquis par le préentraînement VL, puis nous entraînons des encodeurs pour les autres modalités avec un apprentissage par contraste. En conséquence, toutes les modalités sont mappées vers un espace de caractéristiques partagé, réalisant ainsi une alignement sémantique multi-modalité. Bien que LanguageBind garantisse que nous pouvons étendre les modalités VL à N modalités, nous avons également besoin d'un ensemble de données de haute qualité comportant des paires d'alignement centrées sur le langage. Nous proposons donc VIDAL-10M, qui comprend des vidéos, des images infrarouges, des données de profondeur et des signaux audio ainsi que leurs descriptions textuelles correspondantes, ce que nous nommons VIDAL-10M. Dans notre VIDAL-10M, toutes les vidéos proviennent de plates-formes de vidéos courtes avec des sémantiques complètes plutôt que des segments tronqués provenant de vidéos longues, et toutes les modalités vidéo, profondeur, infrarouge et audio sont alignées sur leurs descriptions textuelles respectives. LanguageBind a obtenu des performances supérieures sur une large gamme de 15 benchmarks couvrant la vidéo, l'audio, la profondeur et l'infrarouge. De plus, plusieurs expériences ont fourni des preuves de l'efficacité de LanguageBind pour réaliser un alignement indirect et une complémentarité entre diverses modalités. Adresse du code : https://github.com/PKU-YuanGroup/LanguageBind