7일 전

언어 모델은 비지도 다중 작업 학습자이다.

{Jeffrey Wu, Rewon Child, Ilya Sutskever, David Luan, Alec Radford, Dario Amodei}
초록

자연어 처리 작업, 예를 들어 질의 응답, 기계 번역, 독해 이해, 요약 등은 일반적으로 특정 작업용 데이터셋을 이용한 지도 학습 방식으로 접근된다. 본 연구에서는 웹페이지 수백만 개로 구성된 새로운 데이터셋인 WebText를 이용해 언어 모델을 훈련할 때, 명시적인 지도 신호 없이도 이러한 작업들을 자동으로 학습하기 시작함을 보여준다. 문서와 질문을 입력 조건으로 주었을 때, 언어 모델이 생성한 답변은 CoQA 데이터셋에서 55의 F1 점수를 기록하며, 127,000개 이상의 훈련 예제를 사용하지 않고도 기존의 4개 기준 시스템 중 3개의 성능을 맞추거나 초과한다. 언어 모델의 용량은 제로샷(task transfer) 성공에 핵심적인 역할을 하며, 용량을 증가시킬수록 다양한 작업에서 로그-선형(log-linear) 방식으로 성능이 향상된다. 본 연구에서 가장 큰 모델인 GPT-2는 15억 파라미터를 가진 Transformer 기반 모델로, 제로샷 설정에서 테스트한 8개 언어 모델링 데이터셋 중 7개에서 최고 성능을 기록하지만 여전히 WebText 데이터셋에 대해 과소적합(underfitting) 상태이다. 모델의 샘플은 이러한 성능 향상을 반영하며, 일관성 있는 단락 형식의 텍스트를 포함하고 있다. 이러한 결과는 자연스럽게 발생하는 예시로부터 작업 수행 능력을 학습하는 언어 처리 시스템 구축을 위한 희망적인 방향성을 제시한다.

언어 모델은 비지도 다중 작업 학습자이다. | 최신 연구 논문 | HyperAI초신경