Inception Labs Dévoile Mercury : Un Modèle Linguistique Basé sur la Diffusion pour une Génération de Code Ultra-Rapide
Inception Labs lance Mercury : Un modèle de langage basé sur la diffusion pour une génération de code ultra-rapide Un contexte scientifique et technologique Le domaine de l'intelligence artificielle générative (IA générative) a profondément transformé le développement logiciel en automatisant diverses tâches de codage, allant des complétions automatiques simples aux solutions de codage complexes. Néanmoins, les modèles de langage traditionnels, comme ceux utilisant des architectures autoregressives, souffrent d'une limitation majeure : ils prédiction un jeton à la fois, ce qui entraîne des goulots d'étranglement et des problèmes de latence. Cette lenteur séquentielle est particulièrement problématique dans les environnements interactifs ou les scénarios nécessitant des réponses immédiates. Bien que certains modèles optimisés pour la vitesse, tels que GPT-4o et Claude 3.5 Haiku, aient montré des performances améliorées, la contrainte fondamentale de la génération token par token persiste, exigeant un changement vers des approches de modélisation alternatives capables de génération parallèle et de réduction substantielle de la latence. État actuel des assistants de codage basés sur l'IA et leurs limites en matière de vitesse Actuellement, les assistants de codage principalement utilisés s'appuient sur des architectures de transformations autoregressives. Des modèles notables comme GPT-4o Mini, Claude 3.5 Haiku, Gemini 2.0 Flash Lite et Codestral obtiennent des résultats impressionnants sur des benchmarks de codage standard. Cependant, leur nature séquentielle reste un frein majeur en termes de vitesse. Ces modèles atteignent généralement un débit d'environ 50 à 200 jetons par seconde sur des matériels GPU contemporains. Malgré leur précision élevée, ils rencontrent des limitations significatives lorsqu'ils doivent traiter des tâches de codage de haute demande, interactives ou sensibles à la latence. Présentation de Mercury : UneFamily d'LLMs pour le codage hautes performances Les chercheurs d'Inception Labs ont introduit Mercury, une famille innovante de modèles de langage grand (LLMs) spécifiquement optimisés pour les applications de codage. Le premier modèle de cette famille, Mercury Coder, comprend deux variantes distinctes : Mercury Coder Mini et Mercury Coder Small. Ces modèles de diffusion combinent des architectures de transformations avec une génération de jetons parallèle, ce qui améliore considérablement l'efficacité computationnelle et le débit global. Selon des évaluations indépendantes réalisées par Artificial Analysis, les modèles Mercury Coder ont atteint des performances exceptionnelles. Mercury Coder Mini a atteint un débit de 1 109 jetons par seconde, bien plus rapide que les modèles autoregressifs de base. Mercury Coder Small a également montré de solides performances avec un débit de 737 jetons par seconde, offrant un équilibre remarquable entre vitesse et précision du codage. Mécanisme de diffusion derrière la génération parallèle de tokens Mercury exploite des processus de diffusion où les sorties sont affinées progressivement à partir de bruit initial aléatoire jusqu'à des données cohérentes. Contrairement aux modèles conventionnels qui prédisent les jetons de manière séquentielle, les modèles Mercury affinent plusieurs jetons simultanément à chaque itération, optimisant ainsi le rendement des GPU. Au cours de la formation, les modèles Mercury ont utilisé des ensembles de données comprenant des trillions de jetons provenant de recherches web étendues, de données synthétiques et de dépôts propriétaires. Le protocole de formation par diffusion implique un processus de progression additive de bruit à des données propres et un processus inverse de réduction de ce bruit. Plus précisément, Mercury utilise une perte de diffusion d'élimination, qui permet d'ajuster les jetons simultanément et renforce la parallélisation. De plus, les modèles Mercury intégrent des méthodes de mise en œuvre couramment utilisées dans les modèles autoregressifs existants, notamment l'apprentissage à froide (zero-shot) et l'apprentissage à partir de quelques exemples (few-shot), assurant une intégration fluide dans les flux de travail de codage établis. Précision des benchmarks : Performance excellente sur des tâches de codage standard Sur des tests de benchmarks, Mercury Coder Small a obtenu une précision de 90,0% sur HumanEval, un benchmark de codage Python standard, et de 76,2% sur MultiPL-E, un benchmark multicodage couvrant des langages tels que C++, Java, JavaScript, PHP, Bash et TypeScript. Mercury Coder Mini a montré des performances robustes, enregistrant 88,0% sur HumanEval et 74,1% sur MultiPL-E. Notamment, sur des tâches de codage "fill-in-the-middle", cruciales pour le complété automatique et le codage interactif, Mercury Coder Small a surpassé des modèles spécialisés, atteignant une précision moyenne de 84,8%, tandis que Codestral 2501 affichait 82,5%. De plus, dans des évaluations humaines réelles effectuées via la plateforme Copilot Arena, Mercury Coder Mini a été classé deuxième en termes de préférence utilisateur, surpassant des modèles bien établis tels que GPT-4o Mini et Gemini 1.5 Flash, tout en présentant la plus faible latence moyenne, de seulement 25 millisecondes. Principaux enseignements : Haut débit, précision et compatibilité avec les flux de travail Les modèles Mercury se distinguent par leur haut débit, leur précision et leur compatibilité avec les flux de travail de codage existants. Ils représentent une avancée significative dans l'optimisation de la vitesse de génération de code sans compromettre la qualité, ce qui les rend particulièrement adaptés à des scénarios interactifs et à forte demande en temps réel. Avec des performances exceptionnelles sur des tests standard et des évaluations humaines positives, Mercury pourrait redéfinir les standards dans le domaine des assistants de codage basés sur l'IA, offrant aux développeurs une solution performante et fluide pour l'automatisation de leurs tâches de codage. Évaluation de l’événement par des professionnels de l'industrie et profil de l’entreprise Les experts du secteur saluent l’introduction de Mercury pour sa capacité à réduire drastiquement la latence tout en maintenant une précision élevée. Selon des analystes de l’industrie, ce modèle pourrait révolutionner les approches de développement logiciel, en favorisant une productivité accrue et en améliorant l’expérience utilisateur lors de tâches interactives. Inception Labs, connue pour ses recherches novatrices en IA, continue d’innover en proposant des solutions technologiques qui répondent aux défis réels du développement logiciel moderne. Pour plus d'informations, consultez le papier de recherche, l'API, et le chat. Tous les crédits de cette recherche reviennent aux chercheurs du projet. Suivez-nous également sur Twitter et rejoignez notre community ML SubReddit pour rester au fait des dernières avancées en machine learning.