il y a un mois

PIPer : Configuration d'environnement sur dispositif par apprentissage par renforcement en ligne

Voir les détails de l'article Voir le code

Alexander Kovrigin Aleksandra Eliseeva Konstantin Grotov Egor Bogomolov Yaroslav Zharov

PIPer : Configuration d'environnement sur dispositif par apprentissage par renforcement en ligne

Résumé

Configuration de l’environnement — processus de paramétrage du système afin de permettre son fonctionnement avec un projet logiciel spécifique — constitue un défi persistant en génie logiciel (Software Engineering, SE). Les méthodes automatisées de configuration de l’environnement pourraient aider les développeurs en fournissant des environnements entièrement configurés pour des dépôts arbitraires, sans intervention manuelle. Cela facilite également aux chercheurs en SE l’exploitation à grande échelle de benchmarks basés sur l’exécution. Toutefois, des études récentes montrent que même les modèles de langage à grande échelle (Large Language Models, LLM) les plus avancés obtiennent des résultats limités dans l’automatisation de cette tâche. Pour surmonter cette limitation, nous avons entraîné un modèle spécialisé pour la configuration de l’environnement. Nous combinons une fine-tuning supervisé afin de générer des scripts Bash corrects avec un apprentissage par renforcement à récompenses vérifiables (Reinforcement Learning with Verifiable Rewards, RLVR), afin d’adapter le modèle à la tâche de configuration de l’environnement. Sur le benchmark EnvBench-Python, notre méthode permet au modèle Qwen3-8B (exécutable sur du matériel grand public) de rivaliser avec des modèles plus volumineux, tels que Qwen3-32B et GPT-4o. Le code d’entraînement et les points de contrôle du modèle sont disponibles en ligne : https://github.com/JetBrains-Research/PIPer.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA

GPU prêts à utiliser

Meilleurs prix

Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

PIPer : Configuration d'environnement sur dispositif par apprentissage par renforcement en ligne

Alexander Kovrigin Aleksandra Eliseeva Konstantin Grotov Egor Bogomolov Yaroslav Zharov

Résumé

Construire l'IA avec l'IA

Hyper Newsletters