HyperAIHyperAI

Command Palette

Search for a command to run...

InternLM-XComposer: Ein visuell-linguistisches großes Modell für fortgeschrittene Text-Bild-Verarbeitung und -Komposition

Pan Zhang*1, Xiaoyi Dong*1, Bin Wang1, Yuhang Cao1, Chao Xu1, Linke Ouyang1, Zhiyuan Zhao1, Haodong Duan1, Songyang Zhang1, Shuangrui Ding1, Wenwei Zhang1, Hang Yan1, Xinyue Zhang1, Wei Li1, Jingwen Li1, Kai Chen1, Conghui He1, Xingcheng Zhang1, Yu Qiao1, Dahua Lin1, Jiaqi Wang1,2

Zusammenfassung

Wir schlagen InternLM-XComposer vor, ein großes Modell für visuelle und sprachliche Aufgaben, das fortgeschrittene Bild-Text-Verstehens- und Kompositionsfähigkeiten ermöglicht. Die innovative Natur unseres Modells wird durch drei ansprechende Eigenschaften hervorgehoben: 1) Verschachtelte Text-Bild-Komposition: InternLM-XComposer kann kohärente und kontextbezogene Artikel erstellen, die Bilder nahtlos integrieren, wodurch eine ansprechendere und immersivere Leseerfahrung geboten wird. Es genügt, eine Schreibanweisung zu geben, und unser System generiert den entsprechenden Manuskripttext. Es kann intelligent ermitteln, an welchen Stellen im Text Bilder den Inhalt verbessern würden, und automatisch die passendsten visuellen Kandidaten einfügen. 2) Verstehen mit reichhaltigen mehrsprachigen Wissensbeständen: Das Text-Bild-Verständnis wird durch die Ausbildung auf einer umfangreichen multimodalen mehrsprachigen Datenbank mit sorgfältig entwickelten Strategien gestärkt, was zu einem tiefgründigen Verständnis des visuellen Inhalts führt. 3) Spitzenleistungen: Unser Modell erzielt stets Spitzenwerte in verschiedenen Hauptbenchmarks für grundlegende Vision-Language-Modelle, darunter MME Benchmark, MMBench, MMBench-CN, Seed-Bench, CCBench (Chinese Cultural Benchmark), QBench und Tiny LVLM. Da es bisher keine etablierten Metriken zur quantitativen Bewertung der Text-Bild-Komposition gibt, haben wir ein robustes Evaluierungsverfahren entwickelt, das sowohl menschliche Beurteilungen als auch GPT4-Vision (GPT4-V) einschließt, um Zuverlässigkeit zu gewährleisten. Bemerkenswerterweise erreicht unser InternLM-XComposer vergleichbare Text-Bild-Kompositions-Werte wie öffentliche Lösungen, darunter GPT4-V und GPT3.5. Zusammengefasst revolutioniert InternLM-XComposer die Vision-Language-Interaktion und bietet neue Einblicke und Möglichkeiten. Die Modellreihe von InternLM-XComposer ist öffentlich zugänglich unter https://github.com/InternLM/InternLM-XComposer.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
InternLM-XComposer: Ein visuell-linguistisches großes Modell für fortgeschrittene Text-Bild-Verarbeitung und -Komposition | Paper | HyperAI