CoT-Self-Instruct : Construction de promts synthétiques de haute qualité pour les tâches de raisonnement et non de raisonnement

Nous proposons CoT-Self-Instruct, une méthode de génération de données synthétiques qui incite les modèles linguistiques à raisonner et à planifier d'abord via une chaîne de raisonnement (Chain-of-Thought, CoT) à partir de tâches initiales données, puis à produire une nouvelle requête synthétique de qualité et de complexité similaires, destinée à l'entraînement des modèles linguistiques, suivie d'un filtrage des données de haute qualité à l'aide de métriques automatiques. Dans les tâches de raisonnement vérifiable, nos données synthétiques surpassent significativement les jeux de données d'entraînement existants, tels que s1k et OpenMathReasoning, sur les benchmarks MATH500, AMC23, AIME24 et GPQA-Diamond. Pour les tâches d'instruction suivie non vérifiables, notre méthode dépasse les performances des instructions humaines ou des prompts standard de self-instruct sur AlpacaEval 2.0 et Arena-Hard.