Command Palette
Search for a command to run...
InternLM-XComposer: Ein visuell-linguistisches großes Modell für fortgeschrittene Text-Bild-Verarbeitung und -Komposition
InternLM-XComposer: Ein visuell-linguistisches großes Modell für fortgeschrittene Text-Bild-Verarbeitung und -Komposition
Pan Zhang*1, Xiaoyi Dong*1, Bin Wang1, Yuhang Cao1, Chao Xu1, Linke Ouyang1, Zhiyuan Zhao1, Haodong Duan1, Songyang Zhang1, Shuangrui Ding1, Wenwei Zhang1, Hang Yan1, Xinyue Zhang1, Wei Li1, Jingwen Li1, Kai Chen1, Conghui He1, Xingcheng Zhang1, Yu Qiao1, Dahua Lin1, Jiaqi Wang1,2
Zusammenfassung
Wir schlagen InternLM-XComposer vor, ein großes Modell für visuelle und sprachliche Aufgaben, das fortgeschrittene Bild-Text-Verstehens- und Kompositionsfähigkeiten ermöglicht. Die innovative Natur unseres Modells wird durch drei ansprechende Eigenschaften hervorgehoben: 1) Verschachtelte Text-Bild-Komposition: InternLM-XComposer kann kohärente und kontextbezogene Artikel erstellen, die Bilder nahtlos integrieren, wodurch eine ansprechendere und immersivere Leseerfahrung geboten wird. Es genügt, eine Schreibanweisung zu geben, und unser System generiert den entsprechenden Manuskripttext. Es kann intelligent ermitteln, an welchen Stellen im Text Bilder den Inhalt verbessern würden, und automatisch die passendsten visuellen Kandidaten einfügen. 2) Verstehen mit reichhaltigen mehrsprachigen Wissensbeständen: Das Text-Bild-Verständnis wird durch die Ausbildung auf einer umfangreichen multimodalen mehrsprachigen Datenbank mit sorgfältig entwickelten Strategien gestärkt, was zu einem tiefgründigen Verständnis des visuellen Inhalts führt. 3) Spitzenleistungen: Unser Modell erzielt stets Spitzenwerte in verschiedenen Hauptbenchmarks für grundlegende Vision-Language-Modelle, darunter MME Benchmark, MMBench, MMBench-CN, Seed-Bench, CCBench (Chinese Cultural Benchmark), QBench und Tiny LVLM. Da es bisher keine etablierten Metriken zur quantitativen Bewertung der Text-Bild-Komposition gibt, haben wir ein robustes Evaluierungsverfahren entwickelt, das sowohl menschliche Beurteilungen als auch GPT4-Vision (GPT4-V) einschließt, um Zuverlässigkeit zu gewährleisten. Bemerkenswerterweise erreicht unser InternLM-XComposer vergleichbare Text-Bild-Kompositions-Werte wie öffentliche Lösungen, darunter GPT4-V und GPT3.5. Zusammengefasst revolutioniert InternLM-XComposer die Vision-Language-Interaktion und bietet neue Einblicke und Möglichkeiten. Die Modellreihe von InternLM-XComposer ist öffentlich zugänglich unter https://github.com/InternLM/InternLM-XComposer.