HyperAIHyperAI
il y a 2 mois

QualityFlow : Un flux de travail agencé pour la synthèse de programmes contrôlé par LLM Contrôles de qualité

Hu, Yaojie ; Zhou, Qiang ; Chen, Qihong ; Li, Xiaopeng ; Liu, Linbo ; Zhang, Dejiao ; Kachroo, Amit ; Oz, Talha ; Tripp, Omer
QualityFlow : Un flux de travail agencé pour la synthèse de programmes contrôlé par LLM
Contrôles de qualité
Résumé

Nous présentons QualityFlow, un flux de travail dynamique et agencé pour la synthèse de programmes. Étant donné une description en anglais d'un problème de programmation et un ensemble de tests unitaires, l'objectif du modèle est de synthétiser le programme correct qui résout le problème et passe les tests. QualityFlow inclut des agents de grands modèles linguistiques (LLM) ressemblant à une équipe de développement logiciel, comprenant la génération de code, les tests et l'autodebogage. Nous proposons le Vérificateur Qualité LLM, qui « imagine » explicitement si l'exécution des programmes synthétisés serait conforme aux tests unitaires. Les Vérifications Qualité contrôlent dynamiquement le flux de travail, y compris les actions pour soumettre la réponse finale, clarifier l'énoncé du problème et annuler les étapes précédentes du flux de travail. Nos expériences montrent que le Vérificateur Qualité peut accepter précisément tout programme correct, atténuer les tests synthétisés erronés et prévenir les déviations potentielles du flux de travail. QualityFlow établit des résultats d'état de l'art sur quatre benchmarks de synthèse de programmes : MBPP, HumanEval et des évaluations plus strictes provenant de MBPP-EvalPlus et HumanEval-EvalPlus.

QualityFlow : Un flux de travail agencé pour la synthèse de programmes contrôlé par LLM Contrôles de qualité | Articles de recherche récents | HyperAI