HyperAIHyperAI

Command Palette

Search for a command to run...

OmniVL : Un modèle fondamental unique pour les tâches image-langage et vidéo-langage

Junke Wang Dongdong Chen Zuxuan Wu Chong Luo Luowei Zhou Yucheng Zhao Yujia Xie Ce Liu Yu-Gang Jiang Lu Yuan

Résumé

Ce papier présente OmniVL, un nouveau modèle fondamental conçu pour soutenir à la fois les tâches image-langage et vidéo-langage grâce à une seule architecture universelle. Il adopte un encodeur visuel basé sur le transformer, unifié pour les entrées images et vidéos, permettant ainsi un pré-entraînement conjoint image-langage et vidéo-langage. Pour la première fois, nous démontrons qu’un tel paradigme bénéficie à la fois aux tâches image et vidéo, contrairement au transfert unidirectionnel classique (par exemple, utiliser des données image-langage pour améliorer les tâches vidéo-langage). À cette fin, nous proposons un pré-entraînement conjoint découplé pour les tâches image-langage et vidéo-langage, permettant de décomposer efficacement la modélisation vision-langage selon les dimensions spatiale et temporelle, et d’obtenir une amélioration des performances sur les deux types de tâches. En outre, nous introduisons une nouvelle fonction de perte contrastive vision-langage unifiée (UniVLC), qui permet d’exploiter conjointement des données image-texte, vidéo-texte, image-étiquette (par exemple, classification d’images) et vidéo-étiquette (par exemple, reconnaissance d’actions vidéo), afin d’utiliser au maximum à la fois les données pré-entraînées supervisées et bruitées. Sans nécessiter de modules d’adaptation spécifiques à chaque tâche, OmniVL peut simultanément prendre en charge des tâches visuelles seules (par exemple, classification d’images, reconnaissance d’actions vidéo), des tâches d’alignement cross-modaux (par exemple, recherche d’images/vidéos à partir de texte) ainsi que des tâches de compréhension et de génération multi-modales (par exemple, question-réponse image/vidéo, génération de légendes). Nous évaluons OmniVL sur une large gamme de tâches downstream et obtenons des résultats au niveau de l’état de l’art ou compétitifs, pour une taille de modèle et une échelle de données similaires.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp