vor einem Monat

PIPer: On-Device-Umgebungskonfiguration mittels Online-Verstärkungslernen

Details der Forschungsarbeit anzeigen Code anzeigen

Alexander Kovrigin Aleksandra Eliseeva Konstantin Grotov Egor Bogomolov Yaroslav Zharov

PIPer: On-Device-Umgebungskonfiguration mittels Online-Verstärkungslernen

Abstract

Umweltkonfiguration – der Prozess der Einrichtung eines Systems für die Arbeit mit einem spezifischen Softwareprojekt – stellt eine anhaltende Herausforderung im Bereich des Softwareingenieurwesens (Software Engineering, SE) dar. Automatisierte Methoden zur Umweltkonfiguration könnten Entwicklern helfen, vollständig konfigurierte Umgebungen für beliebige Repositories ohne manuelle Eingriffe bereitzustellen. Dies erleichtert außerdem SE-Forschern die Skalierung von benchmarkbasierten Ausführungsstudien. Allerdings zeigen jüngste Studien, dass selbst fortschrittlichste große Sprachmodelle (Large Language Models, LLMs) bei der Automatisierung dieser Aufgabe nur begrenzten Erfolg erzielen. Um diese Einschränkung zu überwinden, passen wir ein spezialisiertes Modell für die Umweltkonfiguration an. Wir kombinieren überwachtes Feintuning zur Generierung korrekter Bash-Skripte mit Verstärkendem Lernen mit überprüfbarer Belohnung (Reinforcement Learning with Verifiable Rewards, RLVR), um das Modell gezielt auf die Aufgabe der Umweltkonfiguration abzustimmen. Auf dem Benchmark EnvBench-Python erreicht unser Ansatz, dass das Qwen3-8B-Modell (ein Modell, das auf konsumierbarem Hardware-Systemen lauffähig ist), die Leistung von größeren Modellen wie Qwen3-32B und GPT-4o erreicht. Der Trainingscode und die Modell-Checkpoint-Dateien sind öffentlich zugänglich unter: https://github.com/JetBrains-Research/PIPer.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

PIPer: On-Device-Umgebungskonfiguration mittels Online-Verstärkungslernen

Alexander Kovrigin Aleksandra Eliseeva Konstantin Grotov Egor Bogomolov Yaroslav Zharov

Abstract

KI mit KI entwickeln

Hyper Newsletters