vor 10 Monaten

Xiyao Wang extsuperscript1,3† Jiucai Chen extsuperscript1 Zhaoyang Wang extsuperscript2 Yuhang Zhou extsuperscript1 Yiyang Zhou extsuperscript2 Huaxiu Yao extsuperscript2 Tianyi Zhou extsuperscript1 Tom Goldstein extsuperscript1 Parminder Bhatia extsuperscript3 Taha Kass-Hout extsuperscript3

Zusammenfassung

Große visuelle Sprachmodelle (LVLMs) haben durch die Anpassung an spezifische Datensätze bei visuellen Fragebeantwortungs- und Schließungsaufgaben beeindruckende Ergebnisse erzielt. Dennoch besteht weiterhin ein beträchtlicher Verbesserungspotential in der Angleichung von visueller und sprachlicher Modalität. Bestehende Methoden hängen oft von externen Modellen oder Daten ab, was zu unkontrollierbaren und instabilen Angleichungsergebnissen führt. In dieser Arbeit schlagen wir SIMA vor, einen Selbstverbesserungsrahmen, der die Angleichung von visueller und sprachlicher Modalität ohne externe Abhängigkeiten verbessert. SIMA nutzt bestehende Datensätze zur Anpassung an visuelle Anweisungen, um Antworten selbstständig zu generieren, wobei ein im Kontext befindlicher Selbstkritikmechanismus Präferenzpaare für die Anpassung erstellt. Wesentlich ist dabei, dass unser Ansatz es den LVLMs ermöglicht, als Kritiker zu agieren, indem effektive Kritikanweisungen entwickelt werden, sodass zusätzliches Feinjustrieren mit externen Anweisungsdaten vermieden wird. Wir führen drei neue visuelle Metriken im Selbstkritikprozess ein, um das Urteil zu leiten und die Genauigkeit der Selbstkritik erheblich zu verbessern. Durch umfangreiche Experimente auf 14 Halluzinations- und umfassenden Benchmarks zeigen wir, dass SIMA die Leistung der LVLMs erheblich steigert und frühere Ansätze übertrifft, wodurch eine überlegene Modalitätsangleichung erreicht wird.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 10 Monaten

Visuelle Fragebeantwortung

Überwachtes Feinabstimmen

Multimodal

Xiyao Wang extsuperscript1,3† Jiucai Chen extsuperscript1 Zhaoyang Wang extsuperscript2 Yuhang Zhou extsuperscript1 Yiyang Zhou extsuperscript2 Huaxiu Yao extsuperscript2 Tianyi Zhou extsuperscript1 Tom Goldstein extsuperscript1 Parminder Bhatia extsuperscript3 Taha Kass-Hout extsuperscript3

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 10 Monaten

Visuelle Fragebeantwortung

Überwachtes Feinabstimmen

Multimodal

Xiyao Wang extsuperscript1,3† Jiucai Chen extsuperscript1 Zhaoyang Wang extsuperscript2 Yuhang Zhou extsuperscript1 Yiyang Zhou extsuperscript2 Huaxiu Yao extsuperscript2 Tianyi Zhou extsuperscript1 Tom Goldstein extsuperscript1 Parminder Bhatia extsuperscript3 Taha Kass-Hout extsuperscript3

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Verbesserung der Modalitätsausrichtung von Visueller und Sprachlicher Information in großen visuellen Sprachmodellen durch Selbstoptimierung | Paper | HyperAI

Command Palette

Verbesserung der Modalitätsausrichtung von Visueller und Sprachlicher Information in großen visuellen Sprachmodellen durch Selbstoptimierung

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Verbesserung der Modalitätsausrichtung von Visueller und Sprachlicher Information in großen visuellen Sprachmodellen durch Selbstoptimierung

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Verbesserung der Modalitätsausrichtung von Visueller und Sprachlicher Information in großen visuellen Sprachmodellen durch Selbstoptimierung

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters