vor 17 Tagen

MERLOT Reserve: Neuronale Szenenkenntnis durch Vision, Sprache und Klang

Rowan Zellers, Jiasen Lu, Ximing Lu, Youngjae Yu, Yanpeng Zhao, Mohammadreza Salehi, Aditya Kusupati, Jack Hessel, Ali Farhadi, Yejin Choi

Details der Forschungsarbeit anzeigen

MERLOT Reserve: Neuronale Szenenkenntnis durch Vision, Sprache und Klang

Abstract

Als Menschen bewegen wir uns in einer multimodalen Welt und bilden ein ganzheitliches Verständnis aus allen unseren Sinneswahrnehmungen. Wir stellen MERLOT Reserve vor, ein Modell, das Videos zeitlich gemeinsam darstellt – durch ein neues Trainingsziel, das aus Audio, Untertiteln und Videobildern lernt. Gegeben ein Video ersetzen wir Text- und Audio-Ausschnitte durch einen MASK-Token; das Modell lernt, den korrekten maskierten Ausschnitt zu erkennen. Unser Ziel funktioniert schneller als Alternativen und zeigt hervorragende Leistung im großen Maßstab: Wir pretrainen auf 20 Millionen YouTube-Videos.Empirische Ergebnisse zeigen, dass MERLOT Reserve starke multimodale Darstellungen lernt. Nach Feinabstimmung erreicht es den Stand der Technik bei Visual Commonsense Reasoning (VCR), TVQA und Kinetics-600 – wobei es vorherige Ansätze um 5 %, 7 % und 1,5 % übertrifft. Ablationen belegen, dass diese Aufgaben von der Audio-Pretraining-Phase profitieren – selbst VCR, eine Frage-Antwort-Aufgabe, die zentral auf Bildern basiert (ohne Ton). Darüber hinaus ermöglicht unser Ziel direkte Vorhersagen ohne zusätzliche Anpassung und offenbart ein starkes multimodales gemeinsames Verständnis. In einer vollständig zero-shot-Situation erzielt unser Modell konkurrenzfähige Ergebnisse bei vier Video-Aufgaben und übertrifft sogar überwachte Ansätze auf dem kürzlich vorgestellten Situated Reasoning (STAR)-Benchmark.Wir analysieren, warum Audio zu besseren Vision-Sprache-Darstellungen führt, und weisen auf erhebliche Chancen für zukünftige Forschung hin. Abschließend diskutieren wir ethische und gesellschaftliche Implikationen des multimodalen Pretrainings.