CoLLaVO: Crayon Large Language and Vision Modell

Der bemerkenswerte Erfolg von großen Sprachmodellen (LLMs) und der Anweisungstuning fördert die Entwicklung von Vision-Language-Modellen (VLMs) hin zu einem vielseitigen Allzweckmodell. Dennoch ist bisher unklar, ob aktuelle VLMs tatsächlich über solide objektbezogene Bildverarbeitungsfähigkeiten verfügen, die sich aus Fragen wie "Welche Objekte sind im Bild?" oder "Welches Objekt entspricht einer angegebenen Begrenzungsbox?" ableiten lassen. Unsere Ergebnisse zeigen, dass die Bildverarbeitungsfähigkeiten der aktuellen VLMs stark mit ihrer Zero-Shot-Leistung bei Vision-Language-Aufgaben (VL-Aufgaben) korreliert sind. Dies deutet darauf hin, dass das Fokus auf grundlegende Bildverarbeitung für den Erfolg der VLMs bei VL-Aufgaben entscheidend ist. Um die objektbezogene Bildverarbeitung zu verbessern, schlagen wir das Crayon Large Language and Vision mOdel (CoLLaVO) vor, das Anweisungstuning mit Crayon-Prompt als neues visuelles Prompt-Tuning-Verfahren basierend auf panoptischen Farbabbildungen integriert. Darüber hinaus präsentieren wir eine Lernstrategie des Dual QLoRA, um die objektbezogene Bildverarbeitung beizubehalten und zu verhindern, dass sie während des visuellen Anweisungstunings vergessen wird. Dies führt zu einem erheblichen Sprung in zahlreichen VL-Benchmarks in einem Zero-Shot-Szenario.