Mol-R1 : Vers un raisonnement Long-CoT explicite dans la découverte de molécules

Les modèles de langage à grande échelle (LLM), en particulier les modèles de raisonnement explicite à longue chaîne de pensée (Long-CoT), comme DeepSeek-R1 et QWQ, ont démontré des capacités de raisonnement remarquables, obtenant des performances impressionnantes en raisonnement du sens commun et en inférence mathématique. Malgré leur efficacité, les modèles de raisonnement Long-CoT sont fréquemment critiqués pour leur faible capacité et leur faible efficacité dans les domaines intensifs en connaissances, tels que la découverte de molécules. Le succès dans ce domaine exige une compréhension précise des connaissances spécifiques, notamment des structures moléculaires et des principes chimiques, ce qui s'avère difficile en raison de la complexité intrinsèque des données moléculaires et de la rareté des annotations expertes de haute qualité. Pour combler cet écart, nous introduisons Mol-R1, un cadre novateur conçu pour améliorer l’explicabilité et la performance de raisonnement des modèles LLM de type R1 basés sur une chaîne de pensée explicite Long-CoT dans la génération de molécules à partir de texte. Notre approche commence par la construction d’un jeu de données de raisonnement de haute qualité, obtenu grâce à une stratégie de distillation dédiée appelée PRID (Prior Regulation via In-context Distillation), qui permet de générer efficacement des traces de raisonnement appariées guidées par des régulations a priori. En s’appuyant sur ce fondement, nous proposons MoIA (Molecular Iterative Adaptation), une stratégie d’entraînement sophistiquée qui combine de manière itérative le fine-tuning supervisé (SFT) et l’optimisation de politique renforcée (RPO), spécifiquement conçue pour améliorer la performance de raisonnement des modèles de type R1 dans la découverte de molécules. Enfin, nous évaluons les performances de Mol-R1 sur la tâche de génération de molécules à partir de texte, montrant des résultats supérieurs par rapport aux méthodes de référence existantes.