Benchopt : benchmarks d'optimisation reproductibles, efficaces et collaboratifs

La validation numérique est au cœur de la recherche en apprentissage automatique, car elle permet d’évaluer l’impact réel des nouvelles méthodes et de confirmer l’accord entre théorie et pratique. Pourtant, le développement rapide du domaine soulève plusieurs défis : les chercheurs sont confrontés à une prolifération de méthodes à comparer, à une transparence limitée et à un manque de consensus sur les bonnes pratiques, ainsi qu’à un travail fastidieux de réimplémentation. En conséquence, la validation est souvent très partielle, ce qui peut entraîner des conclusions erronées et ralentir la progression de la recherche. Nous proposons Benchopt, un cadre collaboratif visant à automatiser, reproduire et publier des benchmarks d’optimisation en apprentissage automatique, indépendamment des langages de programmation et des architectures matérielles. Benchopt simplifie la mise en œuvre de benchmarks pour la communauté en offrant un outil prêt à l’emploi pour exécuter, partager et étendre des expériences. Pour illustrer sa large faisabilité, nous présentons des benchmarks sur trois tâches d’apprentissage classiques : la régression logistique avec régularisation ℓ₂, la méthode Lasso, et l’entraînement du réseau de neurones ResNet18 pour la classification d’images. Ces benchmarks mettent en évidence des résultats pratiques clés, offrant une vision plus nuancée de l’état de l’art pour ces problèmes, et démontrent que, pour une évaluation pratique, le détail fait la différence. Nous espérons que Benchopt encouragera un travail collaboratif au sein de la communauté, améliorant ainsi la reproductibilité des résultats scientifiques.