2달 전

QualityFlow: LLM에 의해 제어되는 프로그램 합성용 에이전틱 워크플로우 품질 검사

Hu, Yaojie ; Zhou, Qiang ; Chen, Qihong ; Li, Xiaopeng ; Liu, Linbo ; Zhang, Dejiao ; Kachroo, Amit ; Oz, Talha ; Tripp, Omer

논문 세부 정보 보기

QualityFlow: LLM에 의해 제어되는 프로그램 합성용 에이전틱 워크플로우
품질 검사

초록

우리는 프로그램 합성용 동적 에이전트 워크플로인 QualityFlow를 소개합니다. 프로그래밍 문제의 영어 설명과 단위 테스트 집합이 주어질 때, 모델의 목표는 문제를 해결하고 테스트를 통과하는 올바른 프로그램을 합성하는 것입니다. QualityFlow는 코드 생성, 테스트, 그리고 자가 디버깅을 포함한 소프트웨어 개발팀을 닮은 대형 언어 모델(LLM) 에이전트들을 포함합니다. 우리는 LLM 퀄리티 체커를 제안하는데, 이는 합성된 프로그램의 실행이 단위 �테스트에 부합할지 명시적으로 "상상"합니다. 퀄리티 체커는 최종 답변 제출, 문제 문장 명확화, 그리고 이전 워크플로 단계 되돌림 등을 포함한 워크플로를 동적으로 제어합니다. 우리의 실험 결과는 퀄리티 체커가 어떤 올바른 프로그램도 정확히 수락하며, 잘못된 합성 테스트를 완화하고 잠재적인 워크플로 편차를 방지할 수 있음을 보여줍니다. QualityFlow는 MBPP, HumanEval, 그리고 MBPP-EvalPlus와 HumanEval-EvalPlus에서 더 엄격한 평가를 포함하여 네 가지 프로그램 합성 벤치마크에서 최신 기술 수준의 결과를 확립하였습니다.