vor 8 Monaten

Pan Zhang1, Xiaoyi Dong1, Bin Wang1, Yuhang Cao1, Chao Xu1, Linke Ouyang1, Zhiyuan Zhao1, Haodong Duan1, Songyang Zhang1, Shuangrui Ding1, Wenwei Zhang1, Hang Yan1, Xinyue Zhang1, Wei Li1, Jingwen Li1, Kai Chen1, Conghui He1, Xingcheng Zhang1, Yu Qiao1, Dahua Lin1, Jiaqi Wang1,2

Zusammenfassung

Wir schlagen InternLM-XComposer vor, ein großes Modell für visuelle und sprachliche Aufgaben, das fortgeschrittene Bild-Text-Verstehens- und Kompositionsfähigkeiten ermöglicht. Die innovative Natur unseres Modells wird durch drei ansprechende Eigenschaften hervorgehoben: 1) Verschachtelte Text-Bild-Komposition: InternLM-XComposer kann kohärente und kontextbezogene Artikel erstellen, die Bilder nahtlos integrieren, wodurch eine ansprechendere und immersivere Leseerfahrung geboten wird. Es genügt, eine Schreibanweisung zu geben, und unser System generiert den entsprechenden Manuskripttext. Es kann intelligent ermitteln, an welchen Stellen im Text Bilder den Inhalt verbessern würden, und automatisch die passendsten visuellen Kandidaten einfügen. 2) Verstehen mit reichhaltigen mehrsprachigen Wissensbeständen: Das Text-Bild-Verständnis wird durch die Ausbildung auf einer umfangreichen multimodalen mehrsprachigen Datenbank mit sorgfältig entwickelten Strategien gestärkt, was zu einem tiefgründigen Verständnis des visuellen Inhalts führt. 3) Spitzenleistungen: Unser Modell erzielt stets Spitzenwerte in verschiedenen Hauptbenchmarks für grundlegende Vision-Language-Modelle, darunter MME Benchmark, MMBench, MMBench-CN, Seed-Bench, CCBench (Chinese Cultural Benchmark), QBench und Tiny LVLM. Da es bisher keine etablierten Metriken zur quantitativen Bewertung der Text-Bild-Komposition gibt, haben wir ein robustes Evaluierungsverfahren entwickelt, das sowohl menschliche Beurteilungen als auch GPT4-Vision (GPT4-V) einschließt, um Zuverlässigkeit zu gewährleisten. Bemerkenswerterweise erreicht unser InternLM-XComposer vergleichbare Text-Bild-Kompositions-Werte wie öffentliche Lösungen, darunter GPT4-V und GPT3.5. Zusammengefasst revolutioniert InternLM-XComposer die Vision-Language-Interaktion und bietet neue Einblicke und Möglichkeiten. Die Modellreihe von InternLM-XComposer ist öffentlich zugänglich unter https://github.com/InternLM/InternLM-XComposer.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Multimodal

Visuelle Fragebeantwortung

Any-to-Any

Multimodal

Aufgabe

Pan Zhang1, Xiaoyi Dong1, Bin Wang1, Yuhang Cao1, Chao Xu1, Linke Ouyang1, Zhiyuan Zhao1, Haodong Duan1, Songyang Zhang1, Shuangrui Ding1, Wenwei Zhang1, Hang Yan1, Xinyue Zhang1, Wei Li1, Jingwen Li1, Kai Chen1, Conghui He1, Xingcheng Zhang1, Yu Qiao1, Dahua Lin1, Jiaqi Wang1,2

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Multimodal

Visuelle Fragebeantwortung

Any-to-Any

Multimodal

Aufgabe

Pan Zhang1, Xiaoyi Dong1, Bin Wang1, Yuhang Cao1, Chao Xu1, Linke Ouyang1, Zhiyuan Zhao1, Haodong Duan1, Songyang Zhang1, Shuangrui Ding1, Wenwei Zhang1, Hang Yan1, Xinyue Zhang1, Wei Li1, Jingwen Li1, Kai Chen1, Conghui He1, Xingcheng Zhang1, Yu Qiao1, Dahua Lin1, Jiaqi Wang1,2

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

InternLM-XComposer: Ein visuell-linguistisches großes Modell für fortgeschrittene Text-Bild-Verarbeitung und -Komposition

Pan Zhang*1, Xiaoyi Dong*1, Bin Wang1, Yuhang Cao1, Chao Xu1, Linke Ouyang1, Zhiyuan Zhao1, Haodong Duan1, Songyang Zhang1, Shuangrui Ding1, Wenwei Zhang1, Hang Yan1, Xinyue Zhang1, Wei Li1, Jingwen Li1, Kai Chen1, Conghui He1, Xingcheng Zhang1, Yu Qiao1, Dahua Lin1, Jiaqi Wang1,2

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

InternLM-XComposer: Ein visuell-linguistisches großes Modell für fortgeschrittene Text-Bild-Verarbeitung und -Komposition

Pan Zhang*1, Xiaoyi Dong*1, Bin Wang1, Yuhang Cao1, Chao Xu1, Linke Ouyang1, Zhiyuan Zhao1, Haodong Duan1, Songyang Zhang1, Shuangrui Ding1, Wenwei Zhang1, Hang Yan1, Xinyue Zhang1, Wei Li1, Jingwen Li1, Kai Chen1, Conghui He1, Xingcheng Zhang1, Yu Qiao1, Dahua Lin1, Jiaqi Wang1,2

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

InternLM-XComposer: Ein visuell-linguistisches großes Modell für fortgeschrittene Text-Bild-Verarbeitung und -Komposition

Pan Zhang*1, Xiaoyi Dong*1, Bin Wang1, Yuhang Cao1, Chao Xu1, Linke Ouyang1, Zhiyuan Zhao1, Haodong Duan1, Songyang Zhang1, Shuangrui Ding1, Wenwei Zhang1, Hang Yan1, Xinyue Zhang1, Wei Li1, Jingwen Li1, Kai Chen1, Conghui He1, Xingcheng Zhang1, Yu Qiao1, Dahua Lin1, Jiaqi Wang1,2

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Pan Zhang1, Xiaoyi Dong1, Bin Wang1, Yuhang Cao1, Chao Xu1, Linke Ouyang1, Zhiyuan Zhao1, Haodong Duan1, Songyang Zhang1, Shuangrui Ding1, Wenwei Zhang1, Hang Yan1, Xinyue Zhang1, Wei Li1, Jingwen Li1, Kai Chen1, Conghui He1, Xingcheng Zhang1, Yu Qiao1, Dahua Lin1, Jiaqi Wang1,2

Pan Zhang1, Xiaoyi Dong1, Bin Wang1, Yuhang Cao1, Chao Xu1, Linke Ouyang1, Zhiyuan Zhao1, Haodong Duan1, Songyang Zhang1, Shuangrui Ding1, Wenwei Zhang1, Hang Yan1, Xinyue Zhang1, Wei Li1, Jingwen Li1, Kai Chen1, Conghui He1, Xingcheng Zhang1, Yu Qiao1, Dahua Lin1, Jiaqi Wang1,2

Pan Zhang1, Xiaoyi Dong1, Bin Wang1, Yuhang Cao1, Chao Xu1, Linke Ouyang1, Zhiyuan Zhao1, Haodong Duan1, Songyang Zhang1, Shuangrui Ding1, Wenwei Zhang1, Hang Yan1, Xinyue Zhang1, Wei Li1, Jingwen Li1, Kai Chen1, Conghui He1, Xingcheng Zhang1, Yu Qiao1, Dahua Lin1, Jiaqi Wang1,2