il y a 17 jours

MERLOT Reserve : Connaissances scripturales neurales grâce à la vision, au langage et au son

Rowan Zellers, Jiasen Lu, Ximing Lu, Youngjae Yu, Yanpeng Zhao, Mohammadreza Salehi, Aditya Kusupati, Jack Hessel, Ali Farhadi, Yejin Choi

Voir les détails de l'article

MERLOT Reserve : Connaissances scripturales neurales grâce à la vision, au langage et au son

Résumé

En tant qu’êtres humains, nous naviguons dans un monde multimodal, construisant une compréhension globale à partir de tous nos sens. Nous introduisons MERLOT Reserve, un modèle qui représente les vidéos de manière conjointe dans le temps — grâce à une nouvelle méthode d’entraînement apprenant à partir de l’audio, des sous-titres et des images vidéo. Étant donné une vidéo, nous remplaçons des extraits de texte et d’audio par un jeton MASK ; le modèle apprend à reconstruire le fragment masqué correct. Notre objectif d’entraînement converge plus rapidement que les alternatives et se distingue par ses performances à grande échelle : nous préentraînons le modèle sur 20 millions de vidéos YouTube.Les résultats expérimentaux montrent que MERLOT Reserve apprend des représentations multimodales puissantes. Lorsqu’il est finement ajusté, il atteint l’état de l’art sur les tâches de raisonnement visuel communautaire (VCR), TVQA et Kinetics-600, surpassant les méthodes précédentes respectivement de 5 %, 7 % et 1,5 %. Des analyses d’ablation révèlent que ces tâches bénéficient significativement de l’entraînement préalable à l’audio — même VCR, une tâche de question-réponse centrée sur les images (sans composante sonore). En outre, notre objectif permet une prédiction « out-of-the-box », révélant une compréhension multimodale du sens commun remarquable. Dans un cadre entièrement zéro-shot, notre modèle obtient des résultats compétitifs sur quatre tâches vidéo, dépassant même certains approches supervisées sur le tout récent benchmark de raisonnement située (STAR).Nous analysons les raisons pour lesquelles l’audio améliore les représentations vision-langage, soulignant des opportunités importantes pour la recherche future. Enfin, nous discutons des implications éthiques et sociétales de l’entraînement préalable multimodal.