Orca 2 : Enseigner aux petits modèles de langage comment raisonner

Orca 1 apprend à partir de signaux riches, tels que des traces d'explication, ce qui lui permet de surpasser les modèles conventionnels ajustés par instructions sur des benchmarks comme BigBench Hard et AGIEval. Dans Orca 2, nous continuons d'explorer comment des signaux d'entraînement améliorés peuvent renforcer les capacités de raisonnement des modèles plus petits (LMs). Les recherches sur l'entraînement de petits modèles ont souvent recours à l'apprentissage par imitation pour reproduire la sortie de modèles plus performants. Nous soutenons que trop d'accent mis sur l'imitation peut limiter le potentiel des petits modèles. Notre objectif est d'enseigner aux petits modèles différentes stratégies de résolution pour différentes tâches, potentiellement distinctes de celles utilisées par les grands modèles. Par exemple, alors que les grands modèles peuvent fournir une réponse directe à une tâche complexe, les petits modèles n'ont pas nécessairement la même capacité. Dans Orca 2, nous enseignons au modèle diverses techniques de raisonnement (étape par étape, rappel puis génération, rappel-raison-génération, réponse directe, etc.). Plus important encore, nous visons à aider le modèle à apprendre à déterminer la stratégie de solution la plus efficace pour chaque tâche. Nous évaluons Orca 2 en utilisant un ensemble complet de 15 benchmarks variés (correspondant à environ 100 tâches et plus de 36 000 prompts uniques). Orca 2 dépasse significativement les modèles de taille similaire et atteint des niveaux de performance similaires ou supérieurs à ceux des modèles 5-10 fois plus grands, selon les évaluations effectuées sur des tâches complexes qui testent les capacités avancées de raisonnement dans des configurations zero-shot. Nous rendons les poids d'Orca 2 publiquement disponibles sur aka.ms/orca-lm afin de soutenir la recherche sur le développement, l'évaluation et l'alignement des petits modèles (LMs).