HyperAI

Depuis 2025, l'industrie de l'IA a vu émerger plusieurs outils d'automatisation de génération de code basés sur les grands modèles, tels que Cursor, Gemini CLI, Qwen CLI et GPT-codex. Ces outils illustrent une nouvelle phase de développement : l'utilisation des grands modèles pour orchestrer divers outils d'analyse afin d'améliorer la génération automatique de code ou d'accélérer le travail humain. Dans ce contexte, Yu Jiahao, diplômé de licence de l'Université de Tongji à Shanghai et doctorant à l'Université Northwestern aux États-Unis, ainsi que son équipe, se sont penchés sur la question de l'amélioration des performances des modèles dans des tâches complexes comme la génération de code. Leur étude s'est concentrée sur deux approches largement utilisées : le testing time scaling (TTS), qui consiste à générer plusieurs candidats au cours du test et à sélectionner le meilleur parmi eux, et l'apprentissage hors ligne (offline learning), où les données sont préalablement générées et utilisées pour entraîner le modèle. Contrairement à l'apprentissage en ligne, qui nécessite une collecte continue de données et un entraînement simultané, l'apprentissage hors ligne est plus économique en ressources, ce qui le rend particulièrement adapté aux expérimentations algorithmiques. Toutefois, l'équipe a observé un inconvénient majeur : l'apprentissage hors ligne tend à réduire la diversité des réponses produites par le modèle. Lorsqu’un modèle génère plusieurs candidats très similaires, l’effet du TTS est limité, car il n’y a pas de véritable variation pour permettre une meilleure sélection. Ce manque de diversité nuit directement à la performance finale. Pour résoudre ce problème, les chercheurs ont conçu une nouvelle méthode d'entraînement : en ajoutant une composante de pénalité dans la fonction de perte, ils ont encouragé activement la diversité des sorties du modèle durant l'apprentissage hors ligne. Cette approche permet au modèle de produire des réponses plus distinctes, même après une phase d'entraînement préalable, ce qui améliore considérablement les performances lors du TTS. Les résultats ont été validés sur le jeu de données ouvert SWE-Bench, où le modèle développé a atteint la 4e place au classement SWE-Bench-Verified et la 1re au classement SWE-Bench-Lite — une preuve claire de l'efficacité de la méthode. En comparaison avec des approches basées sur l'apprentissage en ligne, cette nouvelle stratégie montre qu'il est possible de compenser, au moins partiellement, le manque de diversité inhérent à l'apprentissage hors ligne, ouvrant ainsi une voie alternative pour les tâches complexes nécessitant des étapes de sélection post-génération. Sur le plan des applications, cette méthode s'applique non seulement à la génération de code, mais aussi à des tâches exigeantes comme les concours mathématiques, les jeux de cybersécurité (CTF) ou les interactions multi-étapes avec des outils. Dans ces contextes, la capacité à générer plusieurs approches différentes augmente les chances de succès. Elle présente également un potentiel intéressant pour la création littéraire, où les modèles d'IA sont souvent critiqués pour leur « goût artificiel » — des formulations répétitives et stéréotypées. En favorisant la diversité, cette méthode aide à briser ces schémas, produisant des textes plus variés et inspirants, ce qui peut mieux stimuler la créativité humaine. Un aspect marquant de cette recherche a été la phase de collecte de données. Initialement, l'équipe envisageait d'utiliser Claude Sonnet 4 d'Anthropic, mais le coût s'est révélé prohibitif (plus de 500 dollars pour une petite quantité de données). Après avoir exploré des alternatives, ils ont découvert une explosion de modèles nationaux chinois — Kimi-K2, Qwen3-coder-480B, GLM-4.5 — dont les performances étaient comparables à celles des modèles commerciaux, tout en étant bien plus abordables. En particulier, GLM-4.5 proposait un forfait d'essai gratuit de 1 trillion de tokens sur un mois, parfaitement aligné avec leur besoin. Grâce à cela, ils ont pu collecter leurs données pour seulement 50 yuans, contre une estimation initiale de plusieurs milliers de dollars. Le modèle utilisé pour le fine-tuning était également un modèle chinois, Qwen3-coder-30B. Cette transition vers les modèles nationaux illustre un changement majeur dans la communauté de recherche : en 2023, les chercheurs se basaient presque exclusivement sur Llama ; en 2025, les modèles chinois ont pris le relais, rivalisant de performance avec les modèles fermés. À l’avenir, l’équipe souhaite explorer de manière quantitative l’impact de la diversité des réponses sur les performances du TTS. Par exemple : combien de modèles différents sont nécessaires pour maximiser l’efficacité ? Un écart de performance entre les modèles affecte-t-il le résultat ? Ces questions restent encore sans réponse, mais constituent une piste prometteuse pour les recherches futures.

Liens associés

Liens associés

Liens associés

Command Palette

Enrichir la créativité des modèles IA : une nouvelle méthode pour réduire le « goût IA » dans l’écriture créative

Liens associés

Command Palette

Enrichir la créativité des modèles IA : une nouvelle méthode pour réduire le « goût IA » dans l’écriture créative

Liens associés

Command Palette

Enrichir la créativité des modèles IA : une nouvelle méthode pour réduire le « goût IA » dans l’écriture créative

Liens associés