InternVL: Skalierung von Visuellen Grundmodellen und Anpassung für Generische visuelle-linguistische Aufgaben

Das exponentielle Wachstum großer Sprachmodelle (LLMs) hat zahlreiche Möglichkeiten für multimodale AGI-Systeme eröffnet. Allerdings konnte der Fortschritt bei visuellen und visuell-sprachlichen Grundmodellen, die ebenfalls entscheidende Bestandteile multimodaler AGI sind, nicht mit dem Tempo der LLMs Schritt halten. In dieser Arbeit entwerfen wir ein groß angelegtes visuell-sprachliches Grundmodell (InternVL), das das visuelle Grundmodell auf 6 Milliarden Parameter skaliert und es schrittweise mit dem LLM ausrichtt, indem es webbasierte Bild-Text-Daten aus verschiedenen Quellen verwendet. Dieses Modell kann auf 32 generische visuell-sprachliche Benchmarks breit angewendet werden und bietet dort den aktuellen Stand der Technik, einschließlich visueller Wahrnehmungsaufgaben wie bildweiser oder pixelweiser Erkennung, visuell-sprachlichen Aufgaben wie zero-shot-Bild-/Video-Klassifizierung, zero-shot-Bild-/Video-Text-Retrieval und der Verknüpfung mit LLMs zur Erstellung multimodaler Dialogsysteme. Es verfügt über leistungsstarke visuelle Fähigkeiten und kann eine gute Alternative zu ViT-22B sein. Wir hoffen, dass unsere Forschung zum Fortschritt multimodaler Großmodelle beitragen kann. Der Code und die Modelle sind unter https://github.com/OpenGVLab/InternVL verfügbar.