단일 단계 보상을 통한 다중 회전 코드 생성
Arnav Kumar Jain, Gonzalo Gonzalez-Pumariega, Wayne Chen, Alexander M Rush, Wenting Zhao, Sanjiban Choudhury
발행일: 6/20/2025

초록
우리는 다중 턴 실행 피드백에서 코드 생성 문제를 다룹니다. 기존 방법들은 피드백 없이 코드를 생성하거나 복잡한 계층적 강화 학습을 사용하여 다중 턴 보상을 최적화하는 데 중점을 두고 있습니다. 우리는 단일 스텝 보상만을 사용하여 다중 턴 코드 생성 문제를 해결할 수 있는 간단하면서도 확장 가능한 접근 방식인 CODE를 제안합니다. 우리의 주요 통찰력은 코드 생성이 한 번의 턴으로 어떤 중간 코드 상태에서도 올바른 코드로 복구할 수 있는 단일 스텝 복구 가능 MDP(마르코프 결정 과정)라는 것입니다. CODE는 다중 턴 실행 피드백에 조건부로 코드 솔루션을 제공하는 생성기와 새로 생성된 코드를 점수화하는 검증기를 반복적으로 학습시킵니다. 실험 평가 결과, 우리의 접근 방식이 최신 기준 모델들보다 상당한 개선을 이 bied는 것을 확인할 수 있었습니다. 우리는 보상 모델과 정책의 설계 선택 사항에 대한 분석을 제공하고, CODE가 실행 피드백을 활용하는 효능성을 보여줍니다.