HyperAIHyperAI

Command Palette

Search for a command to run...

CoLLaVO: Crayon Large Language and Vision Modell

Byung-Kwan Lee; Beomchan Park; Chae Won Kim; Yong Man Ro

Zusammenfassung

Der bemerkenswerte Erfolg von großen Sprachmodellen (LLMs) und der Anweisungstuning fördert die Entwicklung von Vision-Language-Modellen (VLMs) hin zu einem vielseitigen Allzweckmodell. Dennoch ist bisher unklar, ob aktuelle VLMs tatsächlich über solide objektbezogene Bildverarbeitungsfähigkeiten verfügen, die sich aus Fragen wie "Welche Objekte sind im Bild?" oder "Welches Objekt entspricht einer angegebenen Begrenzungsbox?" ableiten lassen. Unsere Ergebnisse zeigen, dass die Bildverarbeitungsfähigkeiten der aktuellen VLMs stark mit ihrer Zero-Shot-Leistung bei Vision-Language-Aufgaben (VL-Aufgaben) korreliert sind. Dies deutet darauf hin, dass das Fokus auf grundlegende Bildverarbeitung für den Erfolg der VLMs bei VL-Aufgaben entscheidend ist. Um die objektbezogene Bildverarbeitung zu verbessern, schlagen wir das Crayon Large Language and Vision mOdel (CoLLaVO) vor, das Anweisungstuning mit Crayon-Prompt als neues visuelles Prompt-Tuning-Verfahren basierend auf panoptischen Farbabbildungen integriert. Darüber hinaus präsentieren wir eine Lernstrategie des Dual QLoRA, um die objektbezogene Bildverarbeitung beizubehalten und zu verhindern, dass sie während des visuellen Anweisungstunings vergessen wird. Dies führt zu einem erheblichen Sprung in zahlreichen VL-Benchmarks in einem Zero-Shot-Szenario.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
CoLLaVO: Crayon Large Language and Vision Modell | Paper | HyperAI