La Collection CoT : Amélioration de l’apprentissage zéro-shot et peu-shot des Modèles de Langage par une Adaptation par Chaîne de Raisonnement

Les modèles linguistiques (LM) comportant moins de 100 milliards de paramètres sont généralement peu performants sur les tâches de raisonnement en chaîne de pensée (CoT), en comparaison avec les grands modèles linguistiques, lorsqu’ils sont confrontés à des tâches inédites. Dans ce travail, nous visons à doter les petits LM d’une capacité de raisonnement étape par étape grâce à une adaptation par instruction à l’aide de justifications CoT. Pour atteindre cet objectif, nous introduisons tout d’abord un nouveau jeu de données pour l’adaptation par instruction appelé CoT Collection, qui enrichit le jeu de données existant Flan Collection (qui ne contient que 9 tâches CoT) avec 1,84 million de justifications supplémentaires réparties sur 1 060 tâches. Nous démontrons que l’adaptation fine de Flan-T5 (3B et 11B) avec CoT Collection permet aux petits modèles linguistiques d’acquérir une meilleure capacité de raisonnement CoT sur des tâches inédites. Sur le benchmark BIG-Bench-Hard (BBH), nous rapportons une amélioration moyenne de +4,34 % (Flan-T5 3B) et +2,60 % (Flan-T5 11B) en termes de précision en zero-shot. En outre, nous montrons que l’adaptation par instruction à l’aide de CoT Collection permet aux modèles linguistiques de développer une meilleure capacité d’apprentissage peu supervisé sur 4 tâches spécifiques à un domaine, avec une amélioration de +2,24 % (Flan-T5 3B) et +2,37 % (Flan-T5 11B), dépassant même ChatGPT utilisant des exemples jusqu’à la longueur maximale, avec une avance de +13,98 %. Le code, les données du jeu CoT Collection et les points de contrôle du modèle sont disponibles publiquement.