HyperAIHyperAI

Command Palette

Search for a command to run...

Rapport technique Ovis2.5

Résumé

Nous présentons Ovis2.5, un successeur d’Ovis2 conçu pour une perception visuelle à résolution native et un raisonnement multimodal performant. Ovis2.5 intègre un transformateur visuel à résolution native, capable de traiter les images à leur résolution d’origine, variable, évitant ainsi la dégradation liée au découpage en tuiles à résolution fixe tout en préservant à la fois les détails fins et la structure globale — des éléments essentiels pour les contenus visuellement denses tels que les graphiques complexes. Pour renforcer ses capacités de raisonnement, nous entraînons le modèle au-delà d’une simple chaîne linéaire de raisonnement, en lui permettant de réaliser une réflexion — incluant la vérification par soi-même et la révision. Cette fonctionnalité avancée est exposée comme un mode « de réflexion » optionnel lors de l’inférence, permettant aux utilisateurs d’opter pour une latence accrue en échange d’une précision améliorée sur des entrées complexes. Le modèle est entraîné selon un programme pédagogique complet en cinq phases, qui construit progressivement ses compétences : il commence par un pré-entraînement fondamental sur les données visuelles et multimodales, poursuit par un ajustement à grande échelle via des instructions, puis se conclut par une phase d’alignement et d’amélioration du raisonnement à l’aide de DPO (Direct Preference Optimization) et de GRPO (Generalized Reward Policy Optimization). Pour exploiter efficacement ces améliorations, nous utilisons un packagage de données multimodales ainsi que la parallélisation hybride, ce qui permet une accélération significative du traitement end-to-end. Nous mettons à disposition deux modèles open source : Ovis2.5-9B et Ovis2.5-2B. Ce dernier poursuit la philosophie « petit modèle, grandes performances » d’Ovis2, le rendant particulièrement adapté aux scénarios à ressources limitées, notamment sur dispositifs embarqués. Sur le classement multimodal OpenCompass, Ovis2.5-9B atteint une moyenne de 78,3, marquant une amélioration notable par rapport à son prédécesseur, Ovis2-8B, et établissant un état de l’art (SOTA) parmi les modèles multimodaux open source dans la catégorie des modèles à moins de 40 milliards de paramètres ; Ovis2.5-2B obtient quant à lui 73,9, établissant un record absolu pour sa taille. Au-delà des scores globaux, Ovis2.5 obtient des résultats leaders sur les benchmarks STEM, démontre des capacités solides en tâches d’ancrage et de traitement vidéo, et atteint un état de l’art ouvert pour sa taille dans l’analyse de graphiques complexes.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp