vor 2 Monaten

InternVL: Skalierung von Visuellen Grundmodellen und Anpassung für Generische visuelle-linguistische Aufgaben

Chen, Zhe ; Wu, Jiannan ; Wang, Wenhai ; Su, Weijie ; Chen, Guo ; Xing, Sen ; Zhong, Muyan ; Zhang, Qinglong ; Zhu, Xizhou ; Lu, Lewei ; Li, Bin ; Luo, Ping ; Lu, Tong ; Qiao, Yu ; Dai, Jifeng

Details der Forschungsarbeit anzeigen

InternVL: Skalierung von Visuellen Grundmodellen und Anpassung für Generische visuelle-linguistische Aufgaben

Abstract

Das exponentielle Wachstum großer Sprachmodelle (LLMs) hat zahlreiche Möglichkeiten für multimodale AGI-Systeme eröffnet. Allerdings konnte der Fortschritt bei visuellen und visuell-sprachlichen Grundmodellen, die ebenfalls entscheidende Bestandteile multimodaler AGI sind, nicht mit dem Tempo der LLMs Schritt halten. In dieser Arbeit entwerfen wir ein groß angelegtes visuell-sprachliches Grundmodell (InternVL), das das visuelle Grundmodell auf 6 Milliarden Parameter skaliert und es schrittweise mit dem LLM ausrichtt, indem es webbasierte Bild-Text-Daten aus verschiedenen Quellen verwendet. Dieses Modell kann auf 32 generische visuell-sprachliche Benchmarks breit angewendet werden und bietet dort den aktuellen Stand der Technik, einschließlich visueller Wahrnehmungsaufgaben wie bildweiser oder pixelweiser Erkennung, visuell-sprachlichen Aufgaben wie zero-shot-Bild-/Video-Klassifizierung, zero-shot-Bild-/Video-Text-Retrieval und der Verknüpfung mit LLMs zur Erstellung multimodaler Dialogsysteme. Es verfügt über leistungsstarke visuelle Fähigkeiten und kann eine gute Alternative zu ViT-22B sein. Wir hoffen, dass unsere Forschung zum Fortschritt multimodaler Großmodelle beitragen kann. Der Code und die Modelle sind unter https://github.com/OpenGVLab/InternVL verfügbar.