2달 전

언어 모델은 소수 샷 학습자입니다.

Tom B. Brown; Benjamin Mann; Nick Ryder; Melanie Subbiah; Jared Kaplan; Prafulla Dhariwal; Arvind Neelakantan; Pranav Shyam; Girish Sastry; Amanda Askell; Sandhini Agarwal; Ariel Herbert-Voss; Gretchen Krueger; Tom Henighan; Rewon Child; Aditya Ramesh; Daniel M. Ziegler; Jeffrey Wu; Clemens Winter; Christopher Hesse; Mark Chen; Eric Sigler; Mateusz Litwin; Scott Gray; Benjamin Chess; Jack Clark; Christopher Berner; Sam McCandlish; Alec Radford; Ilya Sutskever; Dario Amodei
언어 모델은 소수 샷 학습자입니다.
초록

최근 연구에서는 대규모 텍스트 코퍼스에서 사전 학습을 수행한 후 특정 작업에 대한 미세 조정(fine-tuning)을 통해 많은 자연어 처리(NLP) 작업과 벤치마크에서 상당한 성능 향상을 보였습니다. 일반적으로 구조는 작업에 독립적이지만, 이 방법은 여전히 수천 또는 수만 개의 예제를 포함하는 작업별 미세 조정 데이터셋이 필요합니다. 반면, 인간은 몇 개의 예제나 간단한 지시사항만으로 새로운 언어 작업을 수행할 수 있습니다. 이는 현재의 NLP 시스템들이 여전히 크게 어려워하는 부분입니다. 여기서 우리는 언어 모델의 규모를 크게 확장하면 작업에 독립적인 소수 샷(few-shot) 성능이 크게 향상되며, 때로는 기존 최고 성능 미세 조정 접근법과 경쟁할 수 있음을 보여줍니다.구체적으로, 1750억 개의 매개변수를 가진 자동 회귀 언어 모델인 GPT-3를 훈련시키고, 소수 샷 설정에서 그 성능을 평가했습니다. 이는 이전 비희소(non-sparse) 언어 모델보다 10배 더 많은 매개변수를 가지고 있습니다. 모든 작업에서 GPT-3는 그래디언트 업데이트나 미세 조정 없이, 모델과의 순수한 텍스트 상호작용을 통해 작업과 소수 샷 데모가 명시되는 방식으로 적용되었습니다. GPT-3는 번역, 질문 응답, 클로즈(cloze) 작업 등 여러 NLP 데이터셋에서 강력한 성능을 보였으며, 즉석 추론(on-the-fly reasoning)이나 도메인 적응(domain adaptation)이 필요한 단어 섞기(unscrambling words), 문장에서 새 단어 사용(using a novel word in a sentence), 3자리 산술 연산(performing 3-digit arithmetic) 등의 작업에서도 우수한 성능을 발휘했습니다.그러나 동시에 GPT-3의 소수 샷 학습이 여전히 어려움을 겪는 일부 데이터셋과, 대규모 웹 코퍼스에서 학습함으로써 발생하는 방법론적 문제(methodological issues)와 관련된 일부 데이터셋도 확인하였습니다. 마지막으로, GPT-3가 인간 평가자가 인간이 작성한 기사와 구분하기 어려울 정도로 뉴스 기사 샘플을 생성할 수 있다는 것을 발견하였습니다. 우리는 이 결과의 사회적 영향과 GPT-3 전반에 대한 영향에 대해 논의하였습니다.