HyperAIHyperAI
vor einem Tag

Ovis2.5 Technischer Bericht

Shiyin Lu, Yang Li, Yu Xia, Yuwei Hu, Shanshan Zhao, Yanqing Ma, Zhichao Wei, Yinglun Li, Lunhao Duan, Jianshan Zhao, Yuxuan Han, Haijun Li, Wanying Chen, Junke Tang, Chengkun Hou, Zhixing Du, Tianli Zhou, Wenjie Zhang, Huping Ding, Jiahe Li, Wen Li, Gui Hu, Yiliang Gu, Siran Yang, Jiamang Wang, Hailong Sun, Yibo Wang, Hui Sun, Jinlong Huang, Yuping He, Shengze Shi, Weihong Zhang, Guodong Zheng, Junpeng Jiang, Sensen Gao, Yi-Feng Wu, Sijia Chen, Yuhui Chen, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang
Ovis2.5 Technischer Bericht
Abstract

Wir stellen Ovis2.5 vor, eine Weiterentwicklung von Ovis2, die für die native-Auflösungs-Visualperzeption und eine starke multimodale Schlussfolgerung ausgelegt ist. Ovis2.5 integriert einen Vision-Transformer mit native-Auflösung, der Bilder in ihrer ursprünglichen, variablen Auflösung verarbeitet und so die Verzerrung durch feste Auflösungstiling vermeidet, wodurch sowohl feine Details als auch die globale Struktur erhalten bleiben – ein entscheidender Vorteil bei visuell dichten Inhalten wie komplexen Diagrammen. Zur Verbesserung der Schlussfolgerungskapazität trainieren wir das Modell darüber hinaus, über die lineare Kette des Denkens hinauszugehen und Reflektion zu betreiben – inklusive Selbstprüfung und Überarbeitung. Diese erweiterte Fähigkeit wird während der Inferenz als optionales „Denkmodus“ bereitgestellt, sodass Benutzer Latenz gegen erhöhte Genauigkeit bei anspruchsvollen Eingaben eintauschen können. Das Modell wird über ein umfassendes fünfstufiges Curriculum trainiert, das schrittweise Fähigkeiten aufbaut. Der Prozess beginnt mit grundlegendem visuellem und multimodalem Pretraining, geht über großskaliges Instruction-Tuning hinaus und endet mit der Ausrichtung und Verbesserung der Schlussfolgerungsfähigkeit mittels DPO und GRPO. Um diese Erweiterungen effizient zu skalieren, setzen wir multimodale Datensammlung und hybride Parallelität ein, was eine erhebliche End-to-End-Geschwindigkeitssteigerung ermöglicht. Wir veröffentlichen zwei Open-Source-Modelle: Ovis2.5-9B und Ovis2.5-2B. Letzteres setzt die Philosophie „kleines Modell, große Leistung“ von Ovis2 fort und eignet sich daher ideal für ressourcenbeschränkte, on-device-Szenarien. Auf der OpenCompass-Multimodal-Leaderboard erreicht Ovis2.5-9B eine durchschnittliche Bewertung von 78,3 – eine erhebliche Verbesserung gegenüber dem Vorgänger Ovis2-8B – und erzielt Spitzenresultate unter den Open-Source-MLLMs im Parameterbereich unter 40B; Ovis2.5-2B erreicht 73,9 und etabliert damit den SOTA-Wert für seine Größe. Neben den Gesamtwerten erzielt Ovis2.5 führende Ergebnisse in STEM-Benchmark-Tests, zeigt starke Fähigkeiten bei der Verankerung und Videobearbeitung und erreicht im Hinblick auf die Analyse komplexer Diagramme den Open-Source-SOTA-Wert für seine Skalierung.