Inst-IT: Verbesserung der multimodalen Instanzverstehens durch explizites visuelles Anweisungstuning

Große multimodale Modelle (LMMs) haben mit dem Fortschritt der Anweisungstuning erhebliche Durchbrüche erzielt. Dennoch kämpfen bestehende Modelle noch immer mit der instanzspezifischen Verständnisfähigkeit, die eine detailliertere und präzisere Auffassung und Ausrichtung erfordert. Das instanzspezifische Verständnis ist von entscheidender Bedeutung, da es sich auf die spezifischen Elemente konzentriert, die uns am meisten interessieren. Aufbauend auf diese Erkenntnisse haben wir eine automatisierte Annotationspipeline entwickelt, die durch GPT-4o unterstützt wird, um instanzspezifische Informationen aus Bildern und Videos durch explizite visuelle Anweisungen zu extrahieren. Basierend auf dieser Pipeline schlagen wir Inst-IT vor, eine Lösung zur Verbesserung der instanzspezifischen Verständnisfähigkeiten von LMMs durch explizites visuelles Anweisungstuning. Inst-IT besteht aus einem Benchmark zur Diagnose des multimodalen instanzspezifischen Verständnisses, einem groß angelegten Anweisungstuning-Datensatz und einem kontinuierlichen Anweisungstuning-Trainingsparadigma, um die räumlich-zeitlichen instanzspezifischen Verständnisfähigkeiten bestehender LMMs effektiv zu verbessern. Experimentelle Ergebnisse zeigen, dass unsere Modelle dank des Anstoßes durch Inst-IT nicht nur hervorragende Leistungen im Inst-IT-Benchmark erzielen, sondern auch erhebliche Verbesserungen bei verschiedenen generischen Benchmarks für Bild- und Videoverständnis demonstrieren. Dies unterstreicht, dass unser Datensatz nicht nur das instanzspezifische Verständnis fördert, sondern auch die allgemeinen Fähigkeiten der Bild- und Videocomprehension stärkt.