vor einem Monat

Zusammenfassung

Obwohl große multimodale Modelle (Large Multimodal Models, LMMs) erhebliche Fortschritte erzielt haben, bleiben sie weitgehend textzentriert und stützen sich auf Sprache als ihre zentrale Schlussfolgerungsmodalität. Dadurch sind sie eingeschränkt in ihrer Fähigkeit, Schlussfolgerungsaufgaben zu bewältigen, die überwiegend visuell sind. Neuere Ansätze versuchen, dieses Problem zu lösen, indem sie mittlere visuelle Schritte mit Hilfe von Hilfsbildern, Tiefenkarten oder Bildausschnitten überwachen. Diese Strategien legen jedoch starre Vorannahmen darüber fest, wie „nützliche“ visuelle Abstraktionen aussehen sollen, erhöhen den Anmerkungsaufwand erheblich und zeigen Schwierigkeiten bei der Generalisierung über verschiedene Aufgaben hinweg. Um diese kritische Einschränkung anzugehen, schlagen wir eine aufgabenunabhängige Mechanik vor, die LMMs trainiert, visuelle Schlussfolgerungstoken zu entdecken und zu nutzen, ohne explizite Überwachung. Diese Token richten ihre Aufmerksamkeit global aus und re-kodieren das Bild auf eine aufgabeadaptive Weise, wodurch das Modell relevante visuelle Informationen extrahieren kann, ohne auf handgefertigte Überwachung angewiesen zu sein. Unser Ansatz übertrifft direktes Fine-Tuning und erzielt state-of-the-art-Ergebnisse auf einer Vielzahl von visuell zentrierten Aufgaben – einschließlich solcher, bei denen mittlere Abstraktionen schwer spezifizierbar sind – und generalisiert zudem erfolgreich auf Multi-Task-Instruction-Tuning.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor einem Monat

Multimodale Darstellung

Kelvin Li Chuyi Shang Leonid Karlinsky Rogerio Feris Trevor Darrell Roei Herzig

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor einem Monat

Multimodale Darstellung

Kelvin Li Chuyi Shang Leonid Karlinsky Rogerio Feris Trevor Darrell Roei Herzig

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Latente implizite visuelle Inferenz

Kelvin Li Chuyi Shang Leonid Karlinsky Rogerio Feris Trevor Darrell Roei Herzig

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Latente implizite visuelle Inferenz

Kelvin Li Chuyi Shang Leonid Karlinsky Rogerio Feris Trevor Darrell Roei Herzig

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Latente implizite visuelle Inferenz

Kelvin Li Chuyi Shang Leonid Karlinsky Rogerio Feris Trevor Darrell Roei Herzig

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters