vor 2 Monaten

InternLM-XComposer-2.5: Ein vielseitiges großes visuelles Sprachmodell, das lange kontextuelle Eingaben und Ausgaben unterstützt

Pan Zhang, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Rui Qian, Lin Chen, Qipeng Guo, Haodong Duan, Bin Wang, Linke Ouyang, Songyang Zhang, Wenwei Zhang, Yining Li, Yang Gao, Peng Sun, Xinyue Zhang, Wei Li, Jingwen Li, Wenhai Wang, Hang Yan, Conghui He, Xingcheng Zhang, Kai Chen, Jifeng Dai, Yu Qiao, Dahua Lin, Jiaqi Wang

Details der Forschungsarbeit anzeigen

InternLM-XComposer-2.5: Ein vielseitiges großes visuelles Sprachmodell, das lange kontextuelle Eingaben und Ausgaben unterstützt

Abstract

Wir präsentieren InternLM-XComposer-2.5 (IXC-2.5), ein vielseitiges großes visuelles Sprachmodell, das lange kontextuelle Eingaben und Ausgaben unterstützt. IXC-2.5 zeichnet sich durch verschiedene Text-Bild-Verstehens- und Kompositionsanwendungen aus und erreicht GPT-4V-Niveau-Fähigkeiten mit nur 7 Milliarden Parametern im Sprachmodellbackend. Durch die Trainingsschritte mit 24.000 abwechselnden Bild-Text-Kontexten kann es nahtlos auf 96.000 lange Kontexte über RoPE-Extrapolation erweitert werden. Diese Fähigkeit zur Verarbeitung langer Kontexte ermöglicht es IXC-2.5, in Aufgaben zu glänzen, die umfangreiche Eingabe- und Ausgabekontexte erfordern. Im Vergleich zur vorherigen Version 2.0 wurde InternLM-XComposer-2.5 in drei wesentlichen Bereichen der visuellen und sprachlichen Verarbeitung verbessert: (1) Ultra-High Resolution Understanding (Ultra-Hochauflösendes Verständnis), (2) Fine-Grained Video Understanding (Feingranuläres Videoverständnis), und (3) Multi-Turn Multi-Image Dialogue (Mehrere Runden mit mehreren Bildern im Dialog). Neben der Verbesserung des Verständnisses erweitert IXC-2.5 seine Anwendungsmöglichkeiten durch zusätzliche LoRA-Parameter für Text-Bild-Komposition auf zwei ansprechende Gebiete: (1) Erstellung von Webseiten und (2) Komposition hochwertiger Text-Bild-Artikel. IXC-2.5 wurde anhand von 28 Benchmarks evaluiert und übertreffen dabei bestehende Open-Source-State-of-the-Art-Modelle in 16 Benchmarks. Es übertrifft oder kommt bei 16 Schlüsselaufgaben mit GPT-4V und Gemini Pro gleichauf. Das Modell InternLM-XComposer-2.5 ist öffentlich verfügbar unter https://github.com/InternLM/InternLM-XComposer.