HyperAIHyperAI

Command Palette

Search for a command to run...

Inst-IT: Verbesserung der multimodalen Instanzverstehens durch explizites visuelles Anweisungstuning

Wujian Peng Lingchen Meng Yitong Chen Yiweng Xie Yang Liu Tao Gui Hang Xu Xipeng Qiu Zuxuan Wu Yu-Gang Jiang

Zusammenfassung

Große multimodale Modelle (LMMs) haben mit dem Fortschritt der Anweisungstuning erhebliche Durchbrüche erzielt. Dennoch kämpfen bestehende Modelle noch immer mit der instanzspezifischen Verständnisfähigkeit, die eine detailliertere und präzisere Auffassung und Ausrichtung erfordert. Das instanzspezifische Verständnis ist von entscheidender Bedeutung, da es sich auf die spezifischen Elemente konzentriert, die uns am meisten interessieren. Aufbauend auf diese Erkenntnisse haben wir eine automatisierte Annotationspipeline entwickelt, die durch GPT-4o unterstützt wird, um instanzspezifische Informationen aus Bildern und Videos durch explizite visuelle Anweisungen zu extrahieren. Basierend auf dieser Pipeline schlagen wir Inst-IT vor, eine Lösung zur Verbesserung der instanzspezifischen Verständnisfähigkeiten von LMMs durch explizites visuelles Anweisungstuning. Inst-IT besteht aus einem Benchmark zur Diagnose des multimodalen instanzspezifischen Verständnisses, einem groß angelegten Anweisungstuning-Datensatz und einem kontinuierlichen Anweisungstuning-Trainingsparadigma, um die räumlich-zeitlichen instanzspezifischen Verständnisfähigkeiten bestehender LMMs effektiv zu verbessern. Experimentelle Ergebnisse zeigen, dass unsere Modelle dank des Anstoßes durch Inst-IT nicht nur hervorragende Leistungen im Inst-IT-Benchmark erzielen, sondern auch erhebliche Verbesserungen bei verschiedenen generischen Benchmarks für Bild- und Videoverständnis demonstrieren. Dies unterstreicht, dass unser Datensatz nicht nur das instanzspezifische Verständnis fördert, sondern auch die allgemeinen Fähigkeiten der Bild- und Videocomprehension stärkt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp