Command Palette
Search for a command to run...
Renjie Luo Zichen Liu Xiangyan Liu Chao Du Min Lin Wenhu Chen Wei Lu Tianyu Pang

초록
대규모 언어 모델(LLM)은 일반적으로 인간 또는 AI 피드백을 이용한 강화학습(RL)을 통해 훈련되지만, 이러한 방법들은 보통 복잡한 피드백을 스칼라 형태의 보상으로 압축함으로써 그 풍부한 정보의 대부분을 손실시키고, 규모 불균형을 유발한다. 본 연구에서는 구어형 피드백을 조건부 신호로 취급하는 새로운 접근법을 제안한다. 텍스트에서 이미지를 생성하는 과정에서 언어 사전 지식이 미처 경험하지 못한 프롬프트로부터 새로운 출력을 가능하게 하는 것에 영감을 받아, 피드백 조건부 정책(Feedback-Conditional Policy, FCP)을 도입한다. FCP는 응답-피드백 쌍에서 직접 학습하며, 오프라인 데이터에 대한 최대우도 학습을 통해 피드백 조건부 사후확률을 근사한다. 또한, 정책이 긍정적인 조건 하에서 출력을 생성하고 새로 도입된 피드백을 받아 스스로를 개선하는 온라인 부트스트래핑 단계를 추가로 개발하였다. 이는 피드백 기반 학습을 보상 최적화가 아닌 조건부 생성 문제로 재정의함으로써, LLM이 구어형 피드백을 직접 학습하는 데 더 표현력 있는 방법을 제시한다. 본 연구의 코드는 https://github.com/sail-sg/feedback-conditional-policy 에 공개되어 있다.