Command Palette
Search for a command to run...
PIPer : Configuration d'environnement sur dispositif par apprentissage par renforcement en ligne
Alexander Kovrigin Aleksandra Eliseeva Konstantin Grotov Egor Bogomolov Yaroslav Zharov

Résumé
Configuration de l’environnement — processus de paramétrage du système afin de permettre son fonctionnement avec un projet logiciel spécifique — constitue un défi persistant en génie logiciel (Software Engineering, SE). Les méthodes automatisées de configuration de l’environnement pourraient aider les développeurs en fournissant des environnements entièrement configurés pour des dépôts arbitraires, sans intervention manuelle. Cela facilite également aux chercheurs en SE l’exploitation à grande échelle de benchmarks basés sur l’exécution. Toutefois, des études récentes montrent que même les modèles de langage à grande échelle (Large Language Models, LLM) les plus avancés obtiennent des résultats limités dans l’automatisation de cette tâche. Pour surmonter cette limitation, nous avons entraîné un modèle spécialisé pour la configuration de l’environnement. Nous combinons une fine-tuning supervisé afin de générer des scripts Bash corrects avec un apprentissage par renforcement à récompenses vérifiables (Reinforcement Learning with Verifiable Rewards, RLVR), afin d’adapter le modèle à la tâche de configuration de l’environnement. Sur le benchmark EnvBench-Python, notre méthode permet au modèle Qwen3-8B (exécutable sur du matériel grand public) de rivaliser avec des modèles plus volumineux, tels que Qwen3-32B et GPT-4o. Le code d’entraînement et les points de contrôle du modèle sont disponibles en ligne : https://github.com/JetBrains-Research/PIPer.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.