vor 15 Tagen

Anweisungsgeleitete visuelle Maskierung

Jinliang Zheng, Jianxiong Li, Sijie Cheng, Yinan Zheng, Jiaming Li, Jihao Liu, Yu Liu, Jingjing Liu, Xianyuan Zhan

Abstract

Anweisungsfolge ist entscheidend für moderne große Sprachmodelle (LLM). Bei der Erweiterung auf multimodale Anwendungen leidet sie jedoch häufig unter einer Missalignment zwischen spezifischen textuellen Anweisungen und den jeweils relevanten Bildregionen. Um eine präzisere und feinere multimodale Anweisungsfolge zu erreichen, führen wir Instruction-guided Visual Masking (IVM) ein – ein neuartiges, vielseitiges visuelles Grundmodell, das mit unterschiedlichen multimodalen Modellen wie LMM (Large Multimodal Models) oder Robotik-Modellen kompatibel ist. Durch die Erzeugung visueller Masken für anweisungsunrelevante Bildbereiche ermöglicht IVM-erweiterte multimodale Modelle, sich effektiv auf die für die Aufgabe relevanten Bildregionen zu konzentrieren und somit komplexen Anweisungen besser zu entsprechen. Konkret entwickeln wir eine Pipeline zur Generierung von visuellen Masken-Daten und erstellen die IVM-Mix-1M-Datenbank mit einer Million Bild-Anweisung-Paaren. Darüber hinaus führen wir eine neue Lernmethode, Discriminator Weighted Supervised Learning (DWSL), ein, die eine präferenzielle IVM-Trainingsstrategie ermöglicht und dabei hochwertige Datensamples priorisiert. Experimentelle Ergebnisse auf allgemeinen multimodalen Aufgaben wie VQA (Visual Question Answering) und embodied robotic control belegen die Vielseitigkeit von IVM. Als Plug-and-Play-Tool steigert IVM die Leistung vieler multimodaler Modelle signifikant und erreicht neue State-of-the-Art-Ergebnisse auf anspruchsvollen multimodalen Benchmarks. Der Quellcode, die Modelle und die Daten sind unter https://github.com/2toinf/IVM verfügbar.