InternLM-XComposer2: Meisterung der freiformigen Text-Bild-Zusammensetzung und -Verständnis in Vision-Language-Large-Modellen

Wir stellen InternLM-XComposer2 vor, ein modernes Vision-Sprache-Modell, das sich durch herausragende Fähigkeiten in der freiformigen Text-Bild-Komposition und -Verständnis auszeichnet. Dieses Modell geht über die herkömmliche Vision-Sprache-Verarbeitung hinaus und verfügt über die Fähigkeit, aus unterschiedlichen Eingaben wie Skizzen, detaillierten Textbeschreibungen und Referenzbildern kontextuell angepasste, abwechselnde Text-Bild-Inhalte zu generieren, was eine hochgradig anpassbare Inhaltserstellung ermöglicht. InternLM-XComposer2 führt einen Ansatz namens Partial LoRA (PLoRA) ein, der zusätzliche LoRA-Parameter ausschließlich auf Bild-Token anwendet, um die Integrität der vortrainierten Sprachkenntnisse zu bewahren und gleichzeitig ein optimales Gleichgewicht zwischen präzisem visuellem Verständnis und kreativer Textkomposition mit literarischem Geschick zu erreichen. Experimentelle Ergebnisse belegen die Überlegenheit von InternLM-XComposer2 auf Basis von InternLM2-7B bei der Erzeugung hochwertiger, langer, multimodaler Inhalte sowie seine herausragende Leistung im Bereich Vision-Sprache-Verständnis in verschiedenen Benchmarks. Dabei übertrifft es nicht nur bestehende multimodale Modelle erheblich, sondern erreicht oder übertroffen sogar GPT-4V und Gemini Pro in bestimmten Bewertungen. Dies unterstreicht seine bemerkenswerte Kompetenz im Bereich multimodaler Verarbeitung. Die Modellreihe InternLM-XComposer2 mit 7B Parametern ist öffentlich unter https://github.com/InternLM/InternLM-XComposer verfügbar.