HyperAIHyperAI

Command Palette

Search for a command to run...

il y a un mois

PIPer : Configuration d'environnement sur dispositif par apprentissage par renforcement en ligne

Alexander Kovrigin Aleksandra Eliseeva Konstantin Grotov Egor Bogomolov Yaroslav Zharov

PIPer : Configuration d'environnement sur dispositif par apprentissage par renforcement en ligne

Résumé

Configuration de l’environnement — processus de paramétrage du système afin de permettre son fonctionnement avec un projet logiciel spécifique — constitue un défi persistant en génie logiciel (Software Engineering, SE). Les méthodes automatisées de configuration de l’environnement pourraient aider les développeurs en fournissant des environnements entièrement configurés pour des dépôts arbitraires, sans intervention manuelle. Cela facilite également aux chercheurs en SE l’exploitation à grande échelle de benchmarks basés sur l’exécution. Toutefois, des études récentes montrent que même les modèles de langage à grande échelle (Large Language Models, LLM) les plus avancés obtiennent des résultats limités dans l’automatisation de cette tâche. Pour surmonter cette limitation, nous avons entraîné un modèle spécialisé pour la configuration de l’environnement. Nous combinons une fine-tuning supervisé afin de générer des scripts Bash corrects avec un apprentissage par renforcement à récompenses vérifiables (Reinforcement Learning with Verifiable Rewards, RLVR), afin d’adapter le modèle à la tâche de configuration de l’environnement. Sur le benchmark EnvBench-Python, notre méthode permet au modèle Qwen3-8B (exécutable sur du matériel grand public) de rivaliser avec des modèles plus volumineux, tels que Qwen3-32B et GPT-4o. Le code d’entraînement et les points de contrôle du modèle sont disponibles en ligne : https://github.com/JetBrains-Research/PIPer.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
PIPer : Configuration d'environnement sur dispositif par apprentissage par renforcement en ligne | Articles de recherche | HyperAI