17일 전

인간의 피드백을 활용한 지시사항에 따라 작동하도록 언어 모델 훈련하기

Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe
인간의 피드백을 활용한 지시사항에 따라 작동하도록 언어 모델 훈련하기
초록

언어 모델의 크기를 키우는 것만으로 사용자의 의도를 더 잘 이해하게 되는 것은 아닙니다. 예를 들어, 대규모 언어 모델은 사실과 다른 내용을 생성하거나 유해한 발언을 하거나 사용자에게 도움이 되지 않는 출력을 내보낼 수 있습니다. 즉, 이러한 모델은 사용자와 일치하지 않는 것입니다. 본 논문에서는 인간의 피드백을 활용한 미세조정을 통해 다양한 작업에서 언어 모델을 사용자 의도에 맞추는 방향을 제시합니다. 먼저, 평가자들이 작성한 프롬프트와 OpenAI API를 통해 제출된 프롬프트를 기반으로, 원하는 모델 행동의 예시 데이터셋을 수집하고, 이를 통해 GPT-3를 지도학습 방식으로 미세조정합니다. 이후 모델 출력에 대한 순위 데이터셋을 수집하여, 인간 피드백을 활용한 강화학습을 통해 이 지도학습 모델을 추가로 미세조정합니다. 이렇게 생성된 모델을 우리는 InstructGPT라고 부릅니다. 우리의 프롬프트 분포에 대한 인간 평가 결과, InstructGPT의 13억 파라미터 모델 출력은 파라미터 수가 100배 많은 1750억 파라미터 GPT-3의 출력보다 더 선호되는 것으로 나타났습니다. 더불어 InstructGPT 모델은 사실성 측면에서 개선되며, 유해한 출력 생성도 감소하는 것으로 확인되었으며, 공개된 NLP 데이터셋에서의 성능 저하도 거의 없었습니다. 비록 InstructGPT도 간단한 실수를 범할 수는 있지만, 본 연구 결과는 인간 피드백을 활용한 미세조정이 언어 모델을 인간의 의도에 맞추는 데 있어 매우 유망한 방향임을 보여줍니다.

인간의 피드백을 활용한 지시사항에 따라 작동하도록 언어 모델 훈련하기 | 최신 연구 논문 | HyperAI초신경