MegaScience : Pousser les limites des jeux de données post-entraînement pour le raisonnement scientifique

La raison scientifique est essentielle pour former des scientifiques en intelligence artificielle et pour soutenir les chercheurs humains dans l'exploration des frontières de la découverte scientifique naturelle. Cependant, la communauté open source s'est principalement concentrée sur les mathématiques et la programmation, en négligeant le domaine scientifique, en grande partie en raison de l'absence de jeux de données open source, à grande échelle, de haute qualité et vérifiables, dédiés à la raison scientifique. Pour combler ce fossé, nous présentons d'abord TextbookReasoning, un jeu de données open source comprenant des réponses correctes extraites de 12 000 manuels scientifiques universitaires, incluant 650 000 questions de raisonnement couvrant 7 disciplines scientifiques. Nous introduisons également MegaScience, un ensemble de données à grande échelle combinant des jeux de données open source de haute qualité, totalisant 1,25 million d'instances, développé à travers des études d'ablation systématiques qui évaluent diverses méthodologies de sélection des données afin d'identifier le sous-ensemble optimal pour chaque jeu de données scientifique disponible publiquement. Parallèlement, nous avons mis en place un système d'évaluation complet couvrant divers sujets et types de questions à travers 15 benchmarks, intégrant des stratégies d'extraction des réponses pour assurer des métriques d'évaluation précises. Nos expériences montrent que nos jeux de données obtiennent des performances supérieures et une efficacité d'entraînement plus élevée, avec des réponses plus concises par rapport aux jeux de données scientifiques open source existants. En outre, nous avons entraîné les modèles de base de la série Llama3.1, Qwen2.5 et Qwen3 sur MegaScience, ce qui a permis d'atteindre des performances moyennes bien supérieures aux modèles officiels correspondants. De plus, MegaScience s'avère plus efficace pour les modèles de plus grande taille et de plus forte capacité, suggérant un bénéfice d'échelle pour l'ajustement scientifique. Nous mettons à disposition de la communauté notre pipeline de curatage des données, notre système d'évaluation, nos jeux de données ainsi que sept modèles entraînés, afin d'avancer la recherche sur la raison scientifique.