HyperAIHyperAI

Command Palette

Search for a command to run...

MERLOT Reserve: Neuronale Szenenkenntnis durch Vision, Sprache und Klang

Rowan Zellers Jiasen Lu Ximing Lu Youngjae Yu Yanpeng Zhao Mohammadreza Salehi Aditya Kusupati Jack Hessel Ali Farhadi Yejin Choi

Zusammenfassung

Als Menschen bewegen wir uns in einer multimodalen Welt und bilden ein ganzheitliches Verständnis aus allen unseren Sinneswahrnehmungen. Wir stellen MERLOT Reserve vor, ein Modell, das Videos zeitlich gemeinsam darstellt – durch ein neues Trainingsziel, das aus Audio, Untertiteln und Videobildern lernt. Gegeben ein Video ersetzen wir Text- und Audio-Ausschnitte durch einen MASK-Token; das Modell lernt, den korrekten maskierten Ausschnitt zu erkennen. Unser Ziel funktioniert schneller als Alternativen und zeigt hervorragende Leistung im großen Maßstab: Wir pretrainen auf 20 Millionen YouTube-Videos.Empirische Ergebnisse zeigen, dass MERLOT Reserve starke multimodale Darstellungen lernt. Nach Feinabstimmung erreicht es den Stand der Technik bei Visual Commonsense Reasoning (VCR), TVQA und Kinetics-600 – wobei es vorherige Ansätze um 5 %, 7 % und 1,5 % übertrifft. Ablationen belegen, dass diese Aufgaben von der Audio-Pretraining-Phase profitieren – selbst VCR, eine Frage-Antwort-Aufgabe, die zentral auf Bildern basiert (ohne Ton). Darüber hinaus ermöglicht unser Ziel direkte Vorhersagen ohne zusätzliche Anpassung und offenbart ein starkes multimodales gemeinsames Verständnis. In einer vollständig zero-shot-Situation erzielt unser Modell konkurrenzfähige Ergebnisse bei vier Video-Aufgaben und übertrifft sogar überwachte Ansätze auf dem kürzlich vorgestellten Situated Reasoning (STAR)-Benchmark.Wir analysieren, warum Audio zu besseren Vision-Sprache-Darstellungen führt, und weisen auf erhebliche Chancen für zukünftige Forschung hin. Abschließend diskutieren wir ethische und gesellschaftliche Implikationen des multimodalen Pretrainings.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp