L’IA commerciale o3-preview rattrape les meilleurs modèles open-source en mathématiques olympiades
Le fossé entre les modèles LLM commerciaux et open-source pour des problèmes mathématiques de niveau olympiade se réduit progressivement, comme le montre une évaluation récente menée dans le cadre du concours AIMO (Artificial Intelligence Mathematical Olympiad). Cette expérience, menée en collaboration entre AIMO et OpenAI, a testé une version non publiée du modèle o3, appelée o3-preview, sur 50 problèmes mathématiques de haut niveau — tous inédits, non divulgués et conçus spécifiquement pour évaluer la capacité de raisonnement avancé. Ces problèmes, d’un niveau équivalent au BMO ou au USAMO, étaient totalement inconnus des modèles évalués, garantissant une évaluation robuste et sans contamination. L’évaluation a comparé o3-preview (version générale, non optimisée pour les mathématiques) aux deux meilleurs modèles open-source de la deuxième édition du AIMO Progress Prize 2 (AIMO2) : NemoSkills, équipe de Nvidia, et imagination-research, regroupant des chercheurs de Tsinghua University et Microsoft Research. Elle a également pris en compte la performance combinée de tous les participants (AIMO2-combined), définie comme le nombre de problèmes résolus par au moins un modèle parmi les 2 000+ soumissions. Les résultats sont frappants. La version haute puissance d’o3-preview a résolu 47 problèmes sur 50 (en comptant uniquement la meilleure réponse), soit un score équivalent à celui d’AIMO2-combined. La version moyenne a atteint 46/50, et la version basse puissance, 43/50 — ce qui dépasse largement les performances des modèles open-source sur les plateformes Kaggle (33/50 pour NemoSkills, 34/50 pour imagination-research). Lorsqu’ils ont été testés sur des machines plus puissantes (8x H100), les modèles open-source ont progressé : NemoSkills et imagination-research ont tous deux atteint 35/50, confirmant leur potentiel réel quand les contraintes matérielles sont levées. Des analyses détaillées révèlent des différences intéressantes. o3-preview a résolu certains problèmes que les meilleurs modèles open-source n’ont pas pu (ex. : "TRIPAR", "POLYDI"), tandis que d’autres, comme "EIGHTS", ont été correctement résolus uniquement par o3-preview, pas par les leaders open-source. Le problème "RUNNER" est particulièrement significatif : NemoSkills l’a résolu, mais pas o3-preview en mode pass@1, bien que la réponse correcte soit secondaire dans la version haute puissance, suggérant un biais dans les processus de sélection des réponses. En termes de coût, la version basse puissance d’o3-preview coûte environ 1 $ par problème — un ordre de grandeur comparable à l’exécution d’un modèle open-source sur une infrastructure privée ou louée. En ajustant les performances au coût de calcul, la performance globale entre les modèles open-source et commerciaux devient comparable, soulignant que la différence réelle n’est plus tant dans la capacité intrinsèque que dans l’accès aux ressources. Ces résultats montrent que les modèles open-source, grâce à des approches innovantes (comme la fine-tuning, les mécanismes de révision ou les stratégies de recherche), sont désormais capables de rivaliser avec des modèles fermés de pointe, même si une marge reste perceptible dans certains cas complexes. L’AIMO3, prévu pour l’automne 2025, augmentera encore la difficulté, avec des problèmes au niveau de l’IMO, et introduira un format amélioré inspiré des retours de la communauté. En somme, cette évaluation marque une étape clé dans la convergence des performances entre modèles ouverts et fermés. Elle souligne l’importance de l’open-source pour la reproductibilité scientifique, tout en démontrant que les modèles open-source, avec des ressources adéquates, peuvent atteindre des niveaux de raisonnement quasi équivalents à ceux des modèles commerciaux.
