Command Palette
Search for a command to run...
Latente implizite visuelle Inferenz
Latente implizite visuelle Inferenz
Kelvin Li Chuyi Shang Leonid Karlinsky Rogerio Feris Trevor Darrell Roei Herzig
Abstract
Obwohl große multimodale Modelle (Large Multimodal Models, LMMs) erhebliche Fortschritte erzielt haben, bleiben sie weitgehend textzentriert und stützen sich auf Sprache als ihre zentrale Schlussfolgerungsmodalität. Dadurch sind sie eingeschränkt in ihrer Fähigkeit, Schlussfolgerungsaufgaben zu bewältigen, die überwiegend visuell sind. Neuere Ansätze versuchen, dieses Problem zu lösen, indem sie mittlere visuelle Schritte mit Hilfe von Hilfsbildern, Tiefenkarten oder Bildausschnitten überwachen. Diese Strategien legen jedoch starre Vorannahmen darüber fest, wie „nützliche“ visuelle Abstraktionen aussehen sollen, erhöhen den Anmerkungsaufwand erheblich und zeigen Schwierigkeiten bei der Generalisierung über verschiedene Aufgaben hinweg. Um diese kritische Einschränkung anzugehen, schlagen wir eine aufgabenunabhängige Mechanik vor, die LMMs trainiert, visuelle Schlussfolgerungstoken zu entdecken und zu nutzen, ohne explizite Überwachung. Diese Token richten ihre Aufmerksamkeit global aus und re-kodieren das Bild auf eine aufgabeadaptive Weise, wodurch das Modell relevante visuelle Informationen extrahieren kann, ohne auf handgefertigte Überwachung angewiesen zu sein. Unser Ansatz übertrifft direktes Fine-Tuning und erzielt state-of-the-art-Ergebnisse auf einer Vielzahl von visuell zentrierten Aufgaben – einschließlich solcher, bei denen mittlere Abstraktionen schwer spezifizierbar sind – und generalisiert zudem erfolgreich auf Multi-Task-Instruction-Tuning.