Command Palette
Search for a command to run...
Verbesserung der Modalitätsausrichtung von Visueller und Sprachlicher Information in großen visuellen Sprachmodellen durch Selbstoptimierung
Verbesserung der Modalitätsausrichtung von Visueller und Sprachlicher Information in großen visuellen Sprachmodellen durch Selbstoptimierung
Zusammenfassung
Große visuelle Sprachmodelle (LVLMs) haben durch die Anpassung an spezifische Datensätze bei visuellen Fragebeantwortungs- und Schließungsaufgaben beeindruckende Ergebnisse erzielt. Dennoch besteht weiterhin ein beträchtlicher Verbesserungspotential in der Angleichung von visueller und sprachlicher Modalität. Bestehende Methoden hängen oft von externen Modellen oder Daten ab, was zu unkontrollierbaren und instabilen Angleichungsergebnissen führt. In dieser Arbeit schlagen wir SIMA vor, einen Selbstverbesserungsrahmen, der die Angleichung von visueller und sprachlicher Modalität ohne externe Abhängigkeiten verbessert. SIMA nutzt bestehende Datensätze zur Anpassung an visuelle Anweisungen, um Antworten selbstständig zu generieren, wobei ein im Kontext befindlicher Selbstkritikmechanismus Präferenzpaare für die Anpassung erstellt. Wesentlich ist dabei, dass unser Ansatz es den LVLMs ermöglicht, als Kritiker zu agieren, indem effektive Kritikanweisungen entwickelt werden, sodass zusätzliches Feinjustrieren mit externen Anweisungsdaten vermieden wird. Wir führen drei neue visuelle Metriken im Selbstkritikprozess ein, um das Urteil zu leiten und die Genauigkeit der Selbstkritik erheblich zu verbessern. Durch umfangreiche Experimente auf 14 Halluzinations- und umfassenden Benchmarks zeigen wir, dass SIMA die Leistung der LVLMs erheblich steigert und frühere Ansätze übertrifft, wodurch eine überlegene Modalitätsangleichung erreicht wird.