HyperAIHyperAI

Command Palette

Search for a command to run...

Latente implizite visuelle Inferenz

Kelvin Li Chuyi Shang Leonid Karlinsky Rogerio Feris Trevor Darrell Roei Herzig

Abstract

Obwohl große multimodale Modelle (Large Multimodal Models, LMMs) erhebliche Fortschritte erzielt haben, bleiben sie weitgehend textzentriert und stützen sich auf Sprache als ihre zentrale Schlussfolgerungsmodalität. Dadurch sind sie eingeschränkt in ihrer Fähigkeit, Schlussfolgerungsaufgaben zu bewältigen, die überwiegend visuell sind. Neuere Ansätze versuchen, dieses Problem zu lösen, indem sie mittlere visuelle Schritte mit Hilfe von Hilfsbildern, Tiefenkarten oder Bildausschnitten überwachen. Diese Strategien legen jedoch starre Vorannahmen darüber fest, wie „nützliche“ visuelle Abstraktionen aussehen sollen, erhöhen den Anmerkungsaufwand erheblich und zeigen Schwierigkeiten bei der Generalisierung über verschiedene Aufgaben hinweg. Um diese kritische Einschränkung anzugehen, schlagen wir eine aufgabenunabhängige Mechanik vor, die LMMs trainiert, visuelle Schlussfolgerungstoken zu entdecken und zu nutzen, ohne explizite Überwachung. Diese Token richten ihre Aufmerksamkeit global aus und re-kodieren das Bild auf eine aufgabeadaptive Weise, wodurch das Modell relevante visuelle Informationen extrahieren kann, ohne auf handgefertigte Überwachung angewiesen zu sein. Unser Ansatz übertrifft direktes Fine-Tuning und erzielt state-of-the-art-Ergebnisse auf einer Vielzahl von visuell zentrierten Aufgaben – einschließlich solcher, bei denen mittlere Abstraktionen schwer spezifizierbar sind – und generalisiert zudem erfolgreich auf Multi-Task-Instruction-Tuning.


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Latente implizite visuelle Inferenz | Papers | HyperAI