Routoo : Apprendre à diriger efficacement vers les grands modèles de langage

Les modèles de langage à grande échelle (LLMs) offrant une qualité supérieure de réponse – en particulier les modèles plus volumineux ou à source fermée – sont souvent associés à des coûts d'inférence plus élevés, rendant leur déploiement inefficace et coûteux. Parallèlement, le développement de modèles LLM fondamentaux à partir de zéro devient de plus en plus intensif en ressources et peu pratique pour de nombreuses applications. Pour relever le défi du compromis entre la qualité et le coût, nous présentons Routoo, une architecture conçue pour optimiser la sélection des LLMs en fonction des performances, du coût et de l'efficacité pour des prompts spécifiques. Routoo offre un contrôle sur le compromis entre le coût d'inférence et la qualité, permettant des réductions significatives des coûts d'inférence pour une exigence de qualité donnée.Routoo se compose de deux composants clés : un prédicteur de performance et un sélecteur prenant en compte les coûts. Le prédicteur de performance est un modèle LLM léger qui estime les performances attendues des différents modèles LLM sous-jacents sur un prompt donné sans les exécuter. Le module sélecteur prenant en compte les coûts choisit ensuite le modèle le plus approprié en fonction de ces prédictions et des contraintes telles que le coût et la latence, réduisant considérablement les coûts d'inférence tout en maintenant la même qualité.Nous avons évalué Routoo en utilisant le benchmark MMLU couvrant 57 domaines avec des modèles open source. Nos résultats montrent que Routoo égale les performances du modèle Mixtral 8x7b tout en réduisant les coûts d'inférence d'un tiers. De plus, en autorisant une augmentation des coûts, Routoo dépasse la précision du modèle Mixtral de plus de 5% pour des coûts équivalents, atteignant une précision de 75,9%. Lorsque nous intégrons GPT-4 dans notre pool de modèles, Routoo approche presque les performances de GPT-4 au moitié du coût et le dépasse avec une réduction de 25% du coût. Ces résultats soulignent le potentiel de Routoo à réduire considérablement les coûts d'inférence sans compromettre la qualité, et même à établir de nouveaux résultats d'état de l'art grâce à l'exploitation collective des capacités multiples LLMs.