2달 전

대형 언어 모델은 제로샷 추론기입니다.

Takeshi Kojima; Shixiang Shane Gu; Machel Reid; Yutaka Matsuo; Yusuke Iwasawa
대형 언어 모델은 제로샷 추론기입니다.
초록

事전 훈련된 대형 언어 모델(LLM)은 자연어 처리(NLP)의 많은 하위 분야에서 널리 사용되며, 일반적으로 작업 특화 예제를 통해 우수한 소량 샷(few-shot) 학습자로 알려져 있습니다. 특히, 단계별 답변 예제를 통해 복잡한 다단계 추론을 유도하는 최근 기술인 사고 과정 체인(Chain of Thought, CoT) 프롬프팅은 표준 스케일링 법칙을 따르지 않는 어려운 시스템-2 작업인 산술과 상징적 추론에서 최신 성능을 달성하였습니다. 이러한 성공들은 종종 LLM의 소량 샷 학습 능력에 기인한다고 여겨졌지만, 우리는 각 답변 앞에 "단계별로 생각해 보겠습니다"를 추가함으로써 LLM이 꽤나 우수한 제로 샷(zero-shot) 추론자가 될 수 있음을 보여줍니다.실험 결과는 제로 샷-사고 과정 체인(Zero-shot-CoT)이 다양한 벤치마크 추론 작업(산술: MultiArith, GSM8K, AQUA-RAT, SVAMP; 상징적 추론: Last Letter, Coin Flip; 기타 논리적 추론: Date Understanding, Tracking Shuffled Objects)에서 제로 샷 LLM 성능을 크게 초월한다는 것을 입증합니다. 이는 수작업으로 만든 소량 샷 예제 없이도 큰 InstructGPT 모델(text-davinci-002)을 사용하여 MultiArith의 정확도를 17.7%에서 78.7%, GSM8K의 정확도를 10.4%에서 40.7%까지 끌어올렸으며, 다른 사전 훈련된 대형 모델인 540B 매개변수 PaLM에서도 비슷한 정도의 개선 효과가 있었습니다.이 단일 프롬프트가 매우 다양한 추론 작업에 걸쳐 활용될 수 있는 것은 LLM의 아직 탐구되지 않고 연구되지 않은 근본적인 제로 샷 능력이 있음을 시사합니다. 이는 간단한 프롬프팅으로 고차원적이고 다중 작업 범위의 광범위한 인지 능력을 추출할 수 있음을 나타냅니다. 우리는 이 연구가 도전적인 추론 벤치마크에 대한 가장 강력한 제로 샷 기준점 역할뿐만 아니라, 미세 조정 데이터셋이나 소량 샷 예제를 작성하기 전에 LLM 내부에 숨겨진 막대한 제로 샷 지식을 신중하게 탐색하고 분석하는 것의 중요성을 강조하기를 바랍니다.

대형 언어 모델은 제로샷 추론기입니다. | 최신 연구 논문 | HyperAI초신경