HyperAIHyperAI

Command Palette

Search for a command to run...

PIPer: On-Device-Umgebungskonfiguration mittels Online-Verstärkungslernen

Alexander Kovrigin Aleksandra Eliseeva Konstantin Grotov Egor Bogomolov Yaroslav Zharov

Zusammenfassung

Umweltkonfiguration – der Prozess der Einrichtung eines Systems für die Arbeit mit einem spezifischen Softwareprojekt – stellt eine anhaltende Herausforderung im Bereich des Softwareingenieurwesens (Software Engineering, SE) dar. Automatisierte Methoden zur Umweltkonfiguration könnten Entwicklern helfen, vollständig konfigurierte Umgebungen für beliebige Repositories ohne manuelle Eingriffe bereitzustellen. Dies erleichtert außerdem SE-Forschern die Skalierung von benchmarkbasierten Ausführungsstudien. Allerdings zeigen jüngste Studien, dass selbst fortschrittlichste große Sprachmodelle (Large Language Models, LLMs) bei der Automatisierung dieser Aufgabe nur begrenzten Erfolg erzielen. Um diese Einschränkung zu überwinden, passen wir ein spezialisiertes Modell für die Umweltkonfiguration an. Wir kombinieren überwachtes Feintuning zur Generierung korrekter Bash-Skripte mit Verstärkendem Lernen mit überprüfbarer Belohnung (Reinforcement Learning with Verifiable Rewards, RLVR), um das Modell gezielt auf die Aufgabe der Umweltkonfiguration abzustimmen. Auf dem Benchmark EnvBench-Python erreicht unser Ansatz, dass das Qwen3-8B-Modell (ein Modell, das auf konsumierbarem Hardware-Systemen lauffähig ist), die Leistung von größeren Modellen wie Qwen3-32B und GPT-4o erreicht. Der Trainingscode und die Modell-Checkpoint-Dateien sind öffentlich zugänglich unter: https://github.com/JetBrains-Research/PIPer.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
PIPer: On-Device-Umgebungskonfiguration mittels Online-Verstärkungslernen | Paper | HyperAI