Rapport technique Ovis2.5

Nous présentons Ovis2.5, successeur d’Ovis2, conçu pour une perception visuelle à résolution native et un raisonnement multimodal puissant. Ovis2.5 intègre un transformateur visuel à résolution native capable de traiter les images à leur résolution d’origine, variable, évitant ainsi la dégradation liée au découpage en tuiles à résolution fixe, tout en préservant à la fois les détails fins et la structure globale — des éléments essentiels pour des contenus visuellement denses tels que des graphiques complexes. Pour renforcer le raisonnement, nous entraînons le modèle au-delà de la chaîne linéaire de pensée, en lui permettant de pratiquer la réflexion, incluant le contrôle par soi-même et la révision. Cette capacité avancée est exposée en mode optionnel « mode de réflexion » au moment de l’inférence, permettant aux utilisateurs de faire un compromis entre latence et précision accrue sur des entrées difficiles. Le modèle est entraîné selon un programme pédagogique complet en cinq phases, qui développe progressivement ses compétences. Ce processus commence par un pré-entraînement fondamental sur les données visuelles et multimodales, puis progresse vers un ajustement à grande échelle par instruction, avant de se conclure par une phase d’alignement et d’amélioration du raisonnement via DPO (Direct Preference Optimization) et GRPO (Generalized Reward Policy Optimization). Pour exploiter efficacement ces améliorations, nous utilisons un regroupement de données multimodales et une parallélisation hybride, permettant une accélération significative du traitement end-to-end. Nous mettons à disposition deux modèles open source : Ovis2.5-9B et Ovis2.5-2B. Ce dernier poursuit la philosophie « petit modèle, grandes performances » d’Ovis2, le rendant particulièrement adapté aux scénarios à ressources limitées, en local (on-device). Sur le classement multimodal OpenCompass, Ovis2.5-9B atteint une moyenne de 78,3, marquant une amélioration notable par rapport à son prédécesseur Ovis2-8B, et atteignant des résultats de pointe (SOTA) parmi les modèles multimodaux open source dans la catégorie des modèles de moins de 40 milliards de paramètres ; Ovis2.5-2B obtient quant à lui un score de 73,9, établissant un nouveau record pour sa taille. Au-delà des scores globaux, Ovis2.5 obtient des résultats leaders sur des benchmarks STEM, démontre des capacités solides sur les tâches d’ancrage (grounding) et de traitement vidéo, et atteint un état de l’art ouvert (open-source SOTA) à son échelle pour l’analyse de graphiques complexes.