2달 전
지시어 미세조정된 언어 모델의 확장
Hyung Won Chung; Le Hou; Shayne Longpre; Barret Zoph; Yi Tay; William Fedus; Yunxuan Li; Xuezhi Wang; Mostafa Dehghani; Siddhartha Brahma; Albert Webson; Shixiang Shane Gu; Zhuyun Dai; Mirac Suzgun; Xinyun Chen; Aakanksha Chowdhery; Alex Castro-Ros; Marie Pellat; Kevin Robinson; Dasha Valter; Sharan Narang; Gaurav Mishra; Adams Yu; Vincent Zhao; Yanping Huang; Andrew Dai; Hongkun Yu; Slav Petrov; Ed H. Chi; Jeff Dean; Jacob Devlin; Adam Roberts; Denny Zhou; Quoc V. Le; Jason Wei

초록
지시문 형태의 데이터셋 모음을 사용하여 언어 모델을 미세 조정하는 것이 모델 성능과 미처 보지 못한 작업에 대한 일반화를 향상시키는 것으로 입증되었습니다. 본 논문에서는 (1) 작업 수 확장, (2) 모델 크기 확장, (3) 사고 과정 데이터에 대한 미세 조정에 중점을 두고 지시문 미세 조정을 탐구합니다. 우리는 위의 측면들을 고려한 지시문 미세 조정이 다양한 모델 클래스(PaLM, T5, U-PaLM), 프롬프트 설정(제로샷, 소수 샷, CoT), 평가 벤치마크(MMLU, BBH, TyDiQA, MGSM, 개방형 생성)에서 성능을 크게 향상시키는 것을 발견했습니다. 예를 들어, 1.8K 작업에서 지시문으로 미세 조정된 Flan-PaLM 540B는 PALM 540B보다 크게 우수한 성능을 보였습니다(+9.4% 평균). Flan-PaLM 540B는 다섯 샷 MMLU에서 75.2%의 최신 기술 수준 성능을 달성했습니다. 또한 우리는 Flan-T5 체크포인트를 공개적으로 배포하며, 이는 PaLM 62B와 같은 훨씬 더 큰 모델과 비교해도 강력한 소수 샷 성능을 보입니다. 전반적으로 지시문 미세 조정은 사전 학습된 언어 모델의 성능과 사용성을 개선하기 위한 일반적인 방법입니다.