Command Palette
Search for a command to run...
Ovis2.5 Technischer Bericht
Ovis2.5 Technischer Bericht
Zusammenfassung
Wir stellen Ovis2.5 vor, eine Weiterentwicklung von Ovis2, die für die native-Auflösungs-Wahrnehmung und eine starke multimodale Schlussfolgerung ausgelegt ist. Ovis2.5 integriert einen Vision-Transformer mit native-Auflösung, der Bilder in ihrer ursprünglichen, variablen Auflösung verarbeitet und somit die Verzerrung durch feste Auflösungstiling vermeidet, wodurch sowohl feine Details als auch die globale Struktur erhalten bleiben – entscheidend für visuell dichte Inhalte wie komplexe Diagramme. Zur Verbesserung der Schlussfolgerung trainieren wir das Modell darüber hinaus, über die lineare Ketten-der-Denken-Strategie hinauszugehen und Reflexion durchzuführen – einschließlich Selbstüberprüfung und Überarbeitung. Diese erweiterte Fähigkeit wird während der Inferenzzeit als optionales „Denkmodus“ bereitgestellt, sodass Nutzer Latenz gegen erhöhte Genauigkeit bei anspruchsvollen Eingaben eintauschen können. Das Modell wird über einen umfassenden fünfphasigen Lehrplan trainiert, der schrittweise seine Fähigkeiten aufbaut: Er beginnt mit grundlegendem visuellem und multimodalem Vortraining, geht über großskaliges Instruction-Tuning hinaus und erreicht schließlich eine Ausrichtung und Verbesserung der Schlussfolgerung mittels DPO und GRPO. Um diese Erweiterungen effizient zu skalieren, setzen wir multimodale Datensammlung und hybride Parallelität ein, was eine erhebliche End-to-End-Geschwindigkeitssteigerung ermöglicht. Wir veröffentlichen zwei Open-Source-Modelle: Ovis2.5-9B und Ovis2.5-2B. Letzteres setzt die Philosophie „kleines Modell, große Leistung“ von Ovis2 fort und eignet sich ideal für ressourcenbeschränkte, on-device-Szenarien. Auf der OpenCompass-Multimodal-Leaderboard erreicht Ovis2.5-9B durchschnittlich 78,3, was eine erhebliche Verbesserung gegenüber seinem Vorgänger Ovis2-8B darstellt und state-of-the-art-Ergebnisse unter den Open-Source-MLLMs im Parameterbereich unter 40B erreicht; Ovis2.5-2B erreicht 73,9 und etabliert damit den SOTA für seine Größe. Abgesehen von den aggregierten Scores erzielt Ovis2.5 führende Ergebnisse in STEM-Benchmarks, zeigt starke Fähigkeiten bei der Grundierung und Videotasks und erreicht im Hinblick auf komplexe Diagrammanalysen den Open-Source-SOTA für seine Größenordnung.