Casser le Plafond de la Communauté des MLL en Traitant la Génération de Tokens comme une Classification pour l'Ensemble

L'agrégation de plusieurs modèles a toujours été une approche efficace pour repousser les limites des performances existantes et est largement utilisée dans les tâches de classification en moyennant simplement les vecteurs de probabilité de classification issus de plusieurs classifieurs afin d'obtenir une meilleure précision. Cependant, dans la communauté dynamique des grands modèles linguistiques open source (LLM), les méthodes d'agrégation sont rares et généralement limitées à l'agrégation des sorties textuelles complètes des LLM, comme le choix de la meilleure sortie à l'aide d'un classeur, ce qui entraîne une sous-utilisation des informations de probabilité au niveau des jetons. Dans cet article, nous traitons la génération de chaque jeton par les LLM comme une classification (GaC) pour l'agrégation. Cette approche exploite pleinement les informations de probabilité à chaque étape de génération et prévient mieux les LLM de produire des jetons incorrects précoces qui peuvent entraîner des erreurs en cascade. Dans nos expériences, nous avons agrégé des LLMs d'avant-garde sur plusieurs benchmarks, y compris des examens, des tâches mathématiques et de raisonnement, et constaté que notre méthode franchit le plafond de performance actuel au sein de la communauté. De plus, nous avons observé que la plupart des jetons dans la réponse sont simples et n'affectent pas la correction du résultat final. Par conséquent, nous avons également expérimenté l'agrégation uniquement des jetons clés, et les résultats ont montré une meilleure performance avec un temps de latence réduit sur tous les benchmarks.