Command Palette
Search for a command to run...
Quand agréger : identification de points au niveau des jetons pour une agrégation de LLM stable et rapide
Heecheol Yun Kwangmin Ki Junghyun Lee Eunho Yang

Résumé
L’assemblage de grands modèles linguistiques (LLM) suscite un intérêt croissant en tant qu’approche prometteuse pour dépasser les performances des modèles individuels en exploitant leurs forces complémentaires. En particulier, l’agrégation des distributions de probabilité des prochains tokens émises par les modèles s’est avérée efficace dans diverses tâches. Toutefois, bien que performante pour les réponses courtes, son application à la génération de textes longs reste largement sous-explorée. Dans cet article, nous montrons qu’utiliser les méthodes d’assemblage existantes dans la génération de textes longs exige un choix soigneux des positions d’assemblage, car la pratique courante d’assembler à chaque token dégrade fréquemment les performances. Nous identifions deux facteurs clés pour déterminer ces positions : le décalage de tokenisation entre les modèles et le degré de consensus dans leurs distributions de probabilité des prochains tokens. À partir de ces observations, nous proposons SAFE (Stable And Fast LLM Ensembling), un cadre d’assemblage sélectif prenant en compte conjointement ces deux facteurs. Pour renforcer davantage la stabilité, nous introduisons une stratégie d’affinement des probabilités, qui regroupe les probabilités réparties sur plusieurs tokens sous-lexicaux représentant le même mot en un unique token représentatif. Nos expérimentations sur diverses benchmarks, incluant MATH500 et BBH, démontrent que SAFE surpasse les méthodes existantes en termes de précision et d’efficacité, avec des gains observés même lorsqu’on assemble moins de 1 % des tokens.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.