HyperAIHyperAI
vor 17 Tagen

Texte: Verbesserung der feinabgestimmten Sprache-Sicht-Alignment und -Verständnis durch semantikbewusste visuelle Objekte

Junyu Lu, Dixiang Zhang, Songxin Zhang, Zejian Xie, Zhuoyang Song, Cong Lin, Jiaxing Zhang, Bingyi Jing, Pingjian Zhang
Texte: Verbesserung der feinabgestimmten Sprache-Sicht-Alignment und -Verständnis durch semantikbewusste visuelle Objekte
Abstract

Große visuelle Sprachmodelle (LVLMs) haben beeindruckende Zero-Shot-Fähigkeiten in verschiedenen visuell-sprachlichen Dialogszenarien demonstriert. Die fehlende Feinabstimmung der visuellen Objekterkennung behindert jedoch die Modellfähigkeit, Details von Bildern zu verstehen, was zu irreparablen visuellen Halluzinationen und faktischen Fehlern führt. In diesem Artikel stellen wir Lyrics vor – ein neuartiges multimodales Vortrainings- und Anweisungsfine-Tuning-Paradigma, das die visuell-sprachliche Ausrichtung durch feinabgestimmte, cross-modale Zusammenarbeit aufbaut. Aufbauend auf der Grundlage von BLIP-2 integriert Lyrics lokale visuelle Merkmale, die von einem visuellen Refiner extrahiert werden – dieser umfasst Module für Bildmarkierung, Objekterkennung und semantische Segmentierung – in den Querying Transformer. Auf der Sprachseite werden die Spracheingaben durch die aus dem visuellen Refiner abgeleiteten Bounding Boxes und Tags ergänzt. Zudem führen wir ein zweistufiges Trainingsverfahren ein, bei dem der Vortrainingsstadium die Modalgap durch explizite und umfassende visuell-sprachliche Ausrichtungsziele schließt. Im Anweisungsfine-Tuning-Stadium implementieren wir eine semantikbewusste visuelle Merkmalsextraktion, eine entscheidende Methode, die es dem Modell ermöglicht, informative Merkmale aus konkreten visuellen Objekten zu extrahieren. Unser Ansatz erreicht eine robuste Leistung auf 13 Datensätzen verschiedener visuell-sprachlicher Aufgaben und zeigt vielversprechende Fähigkeiten im multimodalen Verständnis, der Wahrnehmung und der Konversation in 11 anwendungsbasierten Benchmark-Tools.