Command Palette
Search for a command to run...
Quand la vie vous offre des échantillons : Les avantages de l'augmentation de l'inférence calculatoire pour les LLMs multilingues
Ammar Khairi Daniel Dsouza Ye Shen Julia Kreutzer Sara Hooker

Résumé
Les récentes avancées dans les grands modèles de langage (LLMs) ont déplacé l'accent vers l'évolutivité des ressources de calcul lors de la phase d'inférence, améliorant les performances sans avoir à reformer le modèle. Une approche courante consiste à échantillonner plusieurs sorties en parallèle et à en sélectionner une comme sortie finale. Cependant, les travaux jusqu'à présent se sont concentrés sur l'anglais et quelques domaines tels que les mathématiques et la programmation. En revanche, nous nous intéressons particulièrement aux techniques qui s'appliquent de manière générale aux tâches ouvertes, aux tâches formellement vérifiables et à travers différentes langues. Dans cette étude, nous examinons comment évoluer de manière robuste les ressources de calcul lors de la phase d'inférence pour des tâches génératives ouvertes dans un cadre multilingue et multitâche.Nos résultats montrent que tant la stratégie d'échantillonnage basée sur la variation de température que la stratégie de sélection doivent être adaptées pour tenir compte des domaines variés et des différents contextes linguistiques. Nous évaluons les méthodes de sélection existantes, révélant que les stratégies efficaces en anglais ne généralisent souvent pas bien à d'autres langues. Nous proposons de nouvelles stratégies d'échantillonnage et de sélection spécifiquement conçues pour des scénarios d'inférence multilingue et multitâche, et montrons qu'elles apportent des gains notables dans diverses langues et tâches. En particulier, nos méthodes combinées d'échantillonnage et de sélection entraînent une augmentation moyenne de +6,8 points du taux de victoire pour nos modèles de 8 milliards de paramètres sur les prompts m-ArenaHard-v2.0, comparativement à des modèles propriétaires comme Gemini. À plus grande échelle, le modèle Command-A (111 milliards de paramètres) équipé de nos méthodes affiche une amélioration de +9,0 points du taux de victoire sur le même benchmark avec seulement cinq échantillons contre le décodage mono-échantillon, ce qui représente une augmentation considérable au coût minimal. Nos résultats soulignent la nécessité d'approches sensibles aux langues et aux tâches pour l'évolutivité des ressources de calcul lors de la phase d'inférence, visant à démocratiser les améliorations des performances dans les langues sous-représentées.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.