HyperAIHyperAI

Command Palette

Search for a command to run...

MERLOT Reserve : Connaissances scripturales neurales grâce à la vision, au langage et au son

Rowan Zellers Jiasen Lu Ximing Lu Youngjae Yu Yanpeng Zhao Mohammadreza Salehi Aditya Kusupati Jack Hessel Ali Farhadi Yejin Choi

Résumé

En tant qu’êtres humains, nous naviguons dans un monde multimodal, construisant une compréhension globale à partir de tous nos sens. Nous introduisons MERLOT Reserve, un modèle qui représente les vidéos de manière conjointe dans le temps — grâce à une nouvelle méthode d’entraînement apprenant à partir de l’audio, des sous-titres et des images vidéo. Étant donné une vidéo, nous remplaçons des extraits de texte et d’audio par un jeton MASK ; le modèle apprend à reconstruire le fragment masqué correct. Notre objectif d’entraînement converge plus rapidement que les alternatives et se distingue par ses performances à grande échelle : nous préentraînons le modèle sur 20 millions de vidéos YouTube.Les résultats expérimentaux montrent que MERLOT Reserve apprend des représentations multimodales puissantes. Lorsqu’il est finement ajusté, il atteint l’état de l’art sur les tâches de raisonnement visuel communautaire (VCR), TVQA et Kinetics-600, surpassant les méthodes précédentes respectivement de 5 %, 7 % et 1,5 %. Des analyses d’ablation révèlent que ces tâches bénéficient significativement de l’entraînement préalable à l’audio — même VCR, une tâche de question-réponse centrée sur les images (sans composante sonore). En outre, notre objectif permet une prédiction « out-of-the-box », révélant une compréhension multimodale du sens commun remarquable. Dans un cadre entièrement zéro-shot, notre modèle obtient des résultats compétitifs sur quatre tâches vidéo, dépassant même certains approches supervisées sur le tout récent benchmark de raisonnement située (STAR).Nous analysons les raisons pour lesquelles l’audio améliore les représentations vision-langage, soulignant des opportunités importantes pour la recherche future. Enfin, nous discutons des implications éthiques et sociétales de l’entraînement préalable multimodal.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp