13일 전

CodeRL: 사전 학습 모델과 심층 강화 학습을 통한 코드 생성 마스터링

Hung Le, Yue Wang, Akhilesh Deepak Gotmare, Silvio Savarese, Steven C.H. Hoi
CodeRL: 사전 학습 모델과 심층 강화 학습을 통한 코드 생성 마스터링
초록

프로그래밍 합성 또는 코드 생성은 문제 사양을 만족하는 프로그램을 자동으로 생성하는 것을 목표로 한다. 최근 대규모 사전 학습된 언어 모델(LM)을 활용한 접근 방식은 희망적인 성과를 보여주고 있으나, 여전히 중요한 한계를 가지고 있다. 특히 이러한 방법들은 자연어로 표현된 문제 설명과 정답 프로그램의 쌍만을 이용해 표준적인 지도 학습(fine-tuning) 절차를 통해 코드 생성 모델을 학습한다. 이와 같은 접근 방식은 문제 사양 내에서 중요한 정보이지만 무시되기 쉬운 신호, 예를 들어 단위 테스트(unit tests)를 거의 고려하지 않기 때문에, 복잡한 새로운 프로그래밍 과제를 해결할 때 성능이 저조하는 경우가 빈번하다. 이러한 한계를 해결하기 위해, 사전 학습된 언어 모델과 심층 강화 학습(Deep Reinforcement Learning, RL)을 결합한 새로운 프레임워크인 'CodeRL'을 제안한다. 구체적으로 학습 과정에서 코드 생성 LM을 액터 네트워크(actor network)로 간주하고, 생성된 프로그램의 기능적 정확도를 예측하는 크리틱 네트워크(critic network)를 도입하여 액터에게 밀도 높은 피드백 신호를 제공한다. 추론 과정에서는 예시 단위 테스트와 크리틱 점수를 기반으로 프로그램을 자동으로 재생성할 수 있는 새로운 생성 절차와 핵심 샘플링 전략을 도입한다. 모델의 기반 구조로는 CodeT5의 인코더-디코더 아키텍처를 확장하여 더 강화된 학습 목표, 더 큰 모델 크기, 그리고 개선된 사전 학습 데이터를 활용하였다. 본 연구 방법은 도전적인 APPS 벤치마크에서 새로운 최고 성능(SOTA)을 달성할 뿐만 아니라, 더 단순한 MBPP 벤치마크에서도 강력한 제로샷 전이(zero-shot transfer) 능력을 보이며 새로운 SOTA 성과를 기록하였다.

CodeRL: 사전 학습 모델과 심층 강화 학습을 통한 코드 생성 마스터링 | 최신 연구 논문 | HyperAI초신경