HyperAIHyperAI
vor 2 Monaten

InternLM-XComposer: Ein visuell-linguistisches großes Modell für fortgeschrittene Text-Bild-Verarbeitung und -Komposition

Zhang, Pan ; Dong, Xiaoyi ; Wang, Bin ; Cao, Yuhang ; Xu, Chao ; Ouyang, Linke ; Zhao, Zhiyuan ; Duan, Haodong ; Zhang, Songyang ; Ding, Shuangrui ; Zhang, Wenwei ; Yan, Hang ; Zhang, Xinyue ; Li, Wei ; Li, Jingwen ; Chen, Kai ; He, Conghui ; Zhang, Xingcheng ; Qiao, Yu ; Lin, Dahua ; Wang, Jiaqi
InternLM-XComposer: Ein visuell-linguistisches großes Modell für fortgeschrittene Text-Bild-Verarbeitung und -Komposition
Abstract

Wir schlagen InternLM-XComposer vor, ein großes Modell für visuelle und sprachliche Aufgaben, das fortgeschrittene Bild-Text-Verstehens- und Kompositionsfähigkeiten ermöglicht. Die innovative Natur unseres Modells wird durch drei ansprechende Eigenschaften hervorgehoben: 1) Verschachtelte Text-Bild-Komposition: InternLM-XComposer kann kohärente und kontextbezogene Artikel erstellen, die Bilder nahtlos integrieren, wodurch eine ansprechendere und immersivere Leseerfahrung geboten wird. Es genügt, eine Schreibanweisung zu geben, und unser System generiert den entsprechenden Manuskripttext. Es kann intelligent ermitteln, an welchen Stellen im Text Bilder den Inhalt verbessern würden, und automatisch die passendsten visuellen Kandidaten einfügen. 2) Verstehen mit reichhaltigen mehrsprachigen Wissensbeständen: Das Text-Bild-Verständnis wird durch die Ausbildung auf einer umfangreichen multimodalen mehrsprachigen Datenbank mit sorgfältig entwickelten Strategien gestärkt, was zu einem tiefgründigen Verständnis des visuellen Inhalts führt. 3) Spitzenleistungen: Unser Modell erzielt stets Spitzenwerte in verschiedenen Hauptbenchmarks für grundlegende Vision-Language-Modelle, darunter MME Benchmark, MMBench, MMBench-CN, Seed-Bench, CCBench (Chinese Cultural Benchmark), QBench und Tiny LVLM. Da es bisher keine etablierten Metriken zur quantitativen Bewertung der Text-Bild-Komposition gibt, haben wir ein robustes Evaluierungsverfahren entwickelt, das sowohl menschliche Beurteilungen als auch GPT4-Vision (GPT4-V) einschließt, um Zuverlässigkeit zu gewährleisten. Bemerkenswerterweise erreicht unser InternLM-XComposer vergleichbare Text-Bild-Kompositions-Werte wie öffentliche Lösungen, darunter GPT4-V und GPT3.5. Zusammengefasst revolutioniert InternLM-XComposer die Vision-Language-Interaktion und bietet neue Einblicke und Möglichkeiten. Die Modellreihe von InternLM-XComposer ist öffentlich zugänglich unter https://github.com/InternLM/InternLM-XComposer.

InternLM-XComposer: Ein visuell-linguistisches großes Modell für fortgeschrittene Text-Bild-Verarbeitung und -Komposition | Neueste Forschungsarbeiten | HyperAI