Command Palette
Search for a command to run...
PIPer: On-Device-Umgebungskonfiguration mittels Online-Verstärkungslernen
Alexander Kovrigin Aleksandra Eliseeva Konstantin Grotov Egor Bogomolov Yaroslav Zharov

Abstract
Umweltkonfiguration – der Prozess der Einrichtung eines Systems für die Arbeit mit einem spezifischen Softwareprojekt – stellt eine anhaltende Herausforderung im Bereich des Softwareingenieurwesens (Software Engineering, SE) dar. Automatisierte Methoden zur Umweltkonfiguration könnten Entwicklern helfen, vollständig konfigurierte Umgebungen für beliebige Repositories ohne manuelle Eingriffe bereitzustellen. Dies erleichtert außerdem SE-Forschern die Skalierung von benchmarkbasierten Ausführungsstudien. Allerdings zeigen jüngste Studien, dass selbst fortschrittlichste große Sprachmodelle (Large Language Models, LLMs) bei der Automatisierung dieser Aufgabe nur begrenzten Erfolg erzielen. Um diese Einschränkung zu überwinden, passen wir ein spezialisiertes Modell für die Umweltkonfiguration an. Wir kombinieren überwachtes Feintuning zur Generierung korrekter Bash-Skripte mit Verstärkendem Lernen mit überprüfbarer Belohnung (Reinforcement Learning with Verifiable Rewards, RLVR), um das Modell gezielt auf die Aufgabe der Umweltkonfiguration abzustimmen. Auf dem Benchmark EnvBench-Python erreicht unser Ansatz, dass das Qwen3-8B-Modell (ein Modell, das auf konsumierbarem Hardware-Systemen lauffähig ist), die Leistung von größeren Modellen wie Qwen3-32B und GPT-4o erreicht. Der Trainingscode und die Modell-Checkpoint-Dateien sind öffentlich zugänglich unter: https://github.com/JetBrains-Research/PIPer.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.