HyperAIHyperAI

Command Palette

Search for a command to run...

Verbesserung der Modalitätsausrichtung von Visueller und Sprachlicher Information in großen visuellen Sprachmodellen durch Selbstoptimierung

Zusammenfassung

Große visuelle Sprachmodelle (LVLMs) haben durch die Anpassung an spezifische Datensätze bei visuellen Fragebeantwortungs- und Schließungsaufgaben beeindruckende Ergebnisse erzielt. Dennoch besteht weiterhin ein beträchtlicher Verbesserungspotential in der Angleichung von visueller und sprachlicher Modalität. Bestehende Methoden hängen oft von externen Modellen oder Daten ab, was zu unkontrollierbaren und instabilen Angleichungsergebnissen führt. In dieser Arbeit schlagen wir SIMA vor, einen Selbstverbesserungsrahmen, der die Angleichung von visueller und sprachlicher Modalität ohne externe Abhängigkeiten verbessert. SIMA nutzt bestehende Datensätze zur Anpassung an visuelle Anweisungen, um Antworten selbstständig zu generieren, wobei ein im Kontext befindlicher Selbstkritikmechanismus Präferenzpaare für die Anpassung erstellt. Wesentlich ist dabei, dass unser Ansatz es den LVLMs ermöglicht, als Kritiker zu agieren, indem effektive Kritikanweisungen entwickelt werden, sodass zusätzliches Feinjustrieren mit externen Anweisungsdaten vermieden wird. Wir führen drei neue visuelle Metriken im Selbstkritikprozess ein, um das Urteil zu leiten und die Genauigkeit der Selbstkritik erheblich zu verbessern. Durch umfangreiche Experimente auf 14 Halluzinations- und umfassenden Benchmarks zeigen wir, dass SIMA die Leistung der LVLMs erheblich steigert und frühere Ansätze übertrifft, wodurch eine überlegene Modalitätsangleichung erreicht wird.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Verbesserung der Modalitätsausrichtung von Visueller und Sprachlicher Information in großen visuellen Sprachmodellen durch Selbstoptimierung | Paper | HyperAI