HyperAIHyperAI

Command Palette

Search for a command to run...

Anweisungsgeleitete visuelle Maskierung

Jinliang Zheng Jianxiong Li Sijie Cheng Yinan Zheng Jiaming Li Jihao Liu Yu Liu Jingjing Liu Xianyuan Zhan

Zusammenfassung

Anweisungsfolge ist entscheidend für moderne große Sprachmodelle (LLM). Bei der Erweiterung auf multimodale Anwendungen leidet sie jedoch häufig unter einer Missalignment zwischen spezifischen textuellen Anweisungen und den jeweils relevanten Bildregionen. Um eine präzisere und feinere multimodale Anweisungsfolge zu erreichen, führen wir Instruction-guided Visual Masking (IVM) ein – ein neuartiges, vielseitiges visuelles Grundmodell, das mit unterschiedlichen multimodalen Modellen wie LMM (Large Multimodal Models) oder Robotik-Modellen kompatibel ist. Durch die Erzeugung visueller Masken für anweisungsunrelevante Bildbereiche ermöglicht IVM-erweiterte multimodale Modelle, sich effektiv auf die für die Aufgabe relevanten Bildregionen zu konzentrieren und somit komplexen Anweisungen besser zu entsprechen. Konkret entwickeln wir eine Pipeline zur Generierung von visuellen Masken-Daten und erstellen die IVM-Mix-1M-Datenbank mit einer Million Bild-Anweisung-Paaren. Darüber hinaus führen wir eine neue Lernmethode, Discriminator Weighted Supervised Learning (DWSL), ein, die eine präferenzielle IVM-Trainingsstrategie ermöglicht und dabei hochwertige Datensamples priorisiert. Experimentelle Ergebnisse auf allgemeinen multimodalen Aufgaben wie VQA (Visual Question Answering) und embodied robotic control belegen die Vielseitigkeit von IVM. Als Plug-and-Play-Tool steigert IVM die Leistung vieler multimodaler Modelle signifikant und erreicht neue State-of-the-Art-Ergebnisse auf anspruchsvollen multimodalen Benchmarks. Der Quellcode, die Modelle und die Daten sind unter https://github.com/2toinf/IVM verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp