vor 11 Tagen

Wie weit sind wir von GPT-4V entfernt? Schließen der Abstand zu kommerziellen multimodalen Modellen mit Open-Source-Suiten

Zhe Chen, Weiyun Wang, Hao Tian, Shenglong Ye, Zhangwei Gao, Erfei Cui, Wenwen Tong, Kongzhi Hu, Jiapeng Luo, Zheng Ma, Ji Ma, Jiaqi Wang, Xiaoyi Dong, Hang Yan, Hewei Guo, Conghui He, Zhenjiang Jin, Chao Xu, Bin Wang, Xingjian Wei, Wei Li, Wenjian Zhang, Lewei Lu, Xizhou Zhu, Tong Lu, Dahua Lin, Yu Qiao

Details der Forschungsarbeit anzeigen

Wie weit sind wir von GPT-4V entfernt? Schließen der Abstand zu kommerziellen multimodalen Modellen mit Open-Source-Suiten

Abstract

In diesem Bericht stellen wir InternVL 1.5 vor, ein quelloffenes Multimodal-Größensprachmodell (MLLM), das die Leistungslücke zwischen quelloffenen und proprietären kommerziellen Modellen im Bereich der multimodalen Verständnisfähigkeit schließen soll. Wir präsentieren drei einfache Verbesserungen: (1) Starke Visuelle Encoder: Wir haben eine kontinuierliche Lernstrategie für das großskalige visuelle Grundmodell InternViT-6B untersucht, die die Fähigkeiten im visuellen Verständnis erheblich steigert und es ermöglicht, das Modell in verschiedenen großen Sprachmodellen zu übertragen und wiederzuverwenden. (2) Dynamische Hochauflösung: Wir teilen Bilder je nach Seitenverhältnis und Auflösung des Eingabebildes in Kacheln mit 1 bis 40 Teilen der Größe 448×448 Pixel auf, was eine Eingabe mit bis zu 4K-Auflösung unterstützt. (3) Hochwertiges zweisprachiges Datensatz: Wir haben einen hochwertigen zweisprachigen Datensatz sorgfältig zusammengestellt, der alltägliche Szenen, Dokumentbilder abdeckt und mit englischen und chinesischen Fragen-Antwort-Paaren annotiert ist, was die Leistung in Aufgaben im Bereich OCR und chinesisch-sprachbezogene Aufgaben erheblich verbessert. Wir evaluieren InternVL 1.5 anhand einer Reihe von Benchmarks und vergleichenden Studien. Im Vergleich sowohl zu quelloffenen als auch zu proprietären Modellen zeigt InternVL 1.5 wettbewerbsfähige Leistungen und erzielt state-of-the-art-Ergebnisse in 8 von 18 Benchmarks. Der Quellcode ist unter https://github.com/OpenGVLab/InternVL veröffentlicht.