InternLM-XComposer-2.5: Ein vielseitiges großes visuelles Sprachmodell, das lange kontextuelle Eingaben und Ausgaben unterstützt

Wir präsentieren InternLM-XComposer-2.5 (IXC-2.5), ein vielseitiges großes visuelles Sprachmodell, das lange kontextuelle Eingaben und Ausgaben unterstützt. IXC-2.5 zeichnet sich durch verschiedene Text-Bild-Verstehens- und Kompositionsanwendungen aus und erreicht GPT-4V-Niveau-Fähigkeiten mit nur 7 Milliarden Parametern im Sprachmodellbackend. Durch die Trainingsschritte mit 24.000 abwechselnden Bild-Text-Kontexten kann es nahtlos auf 96.000 lange Kontexte über RoPE-Extrapolation erweitert werden. Diese Fähigkeit zur Verarbeitung langer Kontexte ermöglicht es IXC-2.5, in Aufgaben zu glänzen, die umfangreiche Eingabe- und Ausgabekontexte erfordern. Im Vergleich zur vorherigen Version 2.0 wurde InternLM-XComposer-2.5 in drei wesentlichen Bereichen der visuellen und sprachlichen Verarbeitung verbessert: (1) Ultra-High Resolution Understanding (Ultra-Hochauflösendes Verständnis), (2) Fine-Grained Video Understanding (Feingranuläres Videoverständnis), und (3) Multi-Turn Multi-Image Dialogue (Mehrere Runden mit mehreren Bildern im Dialog). Neben der Verbesserung des Verständnisses erweitert IXC-2.5 seine Anwendungsmöglichkeiten durch zusätzliche LoRA-Parameter für Text-Bild-Komposition auf zwei ansprechende Gebiete: (1) Erstellung von Webseiten und (2) Komposition hochwertiger Text-Bild-Artikel. IXC-2.5 wurde anhand von 28 Benchmarks evaluiert und übertreffen dabei bestehende Open-Source-State-of-the-Art-Modelle in 16 Benchmarks. Es übertrifft oder kommt bei 16 Schlüsselaufgaben mit GPT-4V und Gemini Pro gleichauf. Das Modell InternLM-XComposer-2.5 ist öffentlich verfügbar unter https://github.com/InternLM/InternLM-XComposer.