5달 전

단일 단계 보상을 통한 다중 회전 코드 생성

Arnav Kumar Jain Gonzalo Gonzalez-Pumariega Wayne Chen Alexander M Rush Wenting Zhao Sanjiban Choudhury

초록

우리는 다중 턴 실행 피드백에서 코드 생성 문제를 다룹니다. 기존 방법들은 피드백 없이 코드를 생성하거나 복잡한 계층적 강화 학습을 사용하여 다중 턴 보상을 최적화하는 데 중점을 두고 있습니다. 우리는 단일 스텝 보상만을 사용하여 다중 턴 코드 생성 문제를 해결할 수 있는 간단하면서도 확장 가능한 접근 방식인 CODE를 제안합니다. 우리의 주요 통찰력은 코드 생성이 한 번의 턴으로 어떤 중간 코드 상태에서도 올바른 코드로 복구할 수 있는 단일 스텝 복구 가능 MDP(마르코프 결정 과정)라는 것입니다. CODE는 다중 턴 실행 피드백에 조건부로 코드 솔루션을 제공하는 생성기와 새로 생성된 코드를 점수화하는 검증기를 반복적으로 학습시킵니다. 실험 평가 결과, 우리의 접근 방식이 최신 기준 모델들보다 상당한 개선을 이 bied는 것을 확인할 수 있었습니다. 우리는 보상 모델과 정책의 설계 선택 사항에 대한 분석을 제공하고, CODE가 실행 피드백을 활용하는 효능성을 보여줍니다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩

즉시 사용 가능한 GPU

최적 가격

시작하기

Hyper Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Command Palette

단일 단계 보상을 통한 다중 회전 코드 생성

Arnav Kumar Jain Gonzalo Gonzalez-Pumariega Wayne Chen Alexander M Rush Wenting Zhao Sanjiban Choudhury

초록

AI로 AI 구축

Hyper Newsletters