HyperAIHyperAI

Command Palette

Search for a command to run...

QualityFlow: Ein agenter Workflow für die Programm-Synthese, gesteuert durch LLM Qualitätsprüfungen

Hu Yaojie ; Zhou Qiang ; Chen Qihong ; Li Xiaopeng ; Liu Linbo ; Zhang Dejiao ; Kachroo Amit ; Oz Talha ; Tripp Omer

Zusammenfassung

Wir stellen QualityFlow vor, einen dynamischen agentialen Workflow für die Programmsynthese.Gegeben eine englische Beschreibung eines Programmierproblems und ein Set von Unit-Tests,ist das Ziel des Modells, das korrekte Programm zu synthetisieren, das das Problem löstund die Tests besteht. QualityFlow umfasst Agenten großer Sprachmodelle (LLM), die einem Softwareentwicklungsteam entsprechen,darunter Codegenerierung, Testing und Selbstdebugging. Wir schlagen den LLM-Qualitätsprüfer vor,der explizit "vorstellt", ob die Ausführung der synthetisierten Programme den Unit-Tests entsprechen würde.Die Qualitätsprüfungen kontrollieren den Workflow dynamisch, einschließlich Aktionen zurAbgabe der endgültigen Antwort, Klarstellung des Problems und Rückgängigmachen früherer Workflow-Schritte.Unsere Experimente zeigen, dass der Qualitätsprüfer jedes korrekte Programm präzise akzeptieren kann,fehlerhafte synthetisierte Tests abmildern kann und potenzielle Workflow-Abweichungen verhindern kann.QualityFlow erzielt standesüberragende Ergebnisse auf vier Benchmarks für Programmsynthese: MBPP, HumanEvalund strengere Bewertungen von MBPP-EvalPlus und HumanEval-EvalPlus.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
QualityFlow: Ein agenter Workflow für die Programm-Synthese, gesteuert durch LLM Qualitätsprüfungen | Paper | HyperAI