17일 전

OPT-IML: 일반화의 관점에서 언어 모델 지시 메타학습의 스케일링

Srinivasan Iyer, Xi Victoria Lin, Ramakanth Pasunuru, Todor Mihaylov, Daniel Simig, Ping Yu, Kurt Shuster, Tianlu Wang, Qing Liu, Punit Singh Koura, Xian Li, Brian O&#39, Horo, Gabriel Pereyra, Jeff Wang, Christopher Dewan, Asli Celikyilmaz, Luke Zettlemoyer, Ves Stoyanov
OPT-IML: 일반화의 관점에서 언어 모델 지시 메타학습의 스케일링
초록

최근 연구들은 지시(instruction)를 통해 설명되는 다양한 작업 집합에 대해 대규모 사전 훈련된 언어 모델을 미세조정하는 방법, 즉 지시 미세조정(instruction-tuning)이 새로운 작업에 대한 제로-샷 및 희소-샷 일반화 능력을 향상시킨다는 것을 보여주었다. 그러나 지시 미세조정 과정에서 발생하는 다양한 결정들 간의 성능 트레이드오프에 대한 이해는 여전히 제한적이다. 이러한 결정들에는 지시 미세조정 벤치마크의 규모와 다양성, 다양한 작업 샘플링 전략, 예시를 포함한/미포함한 미세조정, 추론 및 대화에 특화된 데이터셋을 사용한 훈련, 그리고 마지막으로 미세조정 목적함수 자체가 포함된다. 본 논문에서는 모델과 벤치마크 규모를 동시에 확장할 때 지시 미세조정 결정들이 하류 작업 성능에 미치는 영향을 체계적으로 분석한다. 이를 위해 우리는 8개의 기존 벤치마크에서 수집된 2,000개의 NLP 작업을 작업 카테고리로 통합한 대규모 지시 메타학습(instruction meta-learning, IML) 벤치마크인 OPT-IML Bench를 구축하였으며, 세 가지 유형의 모델 일반화 능력을 측정할 수 있는 평가 프레임워크를 준비하였다. 이는 완전히 보류된 카테고리의 작업으로의 일반화, 보여진 카테고리 내에서 보류된 작업으로의 일반화, 그리고 보여진 작업 내에서 보류된 인스턴스로의 일반화를 평가하는 데 활용된다. 이러한 프레임워크를 기반으로, 우리는 OPT-30B에 적용된 지시 미세조정 결정들에 대한 통찰을 제시하고, 이를 바탕으로 OPT-30B와 OPT-175B의 지시 미세조정 버전인 OPT-IML을 개발하였다. OPT-IML은 다양한 작업과 입력 형식을 가진 네 가지 평가 벤치마크(PromptSource, FLAN, Super-NaturalInstructions, UnifiedSKG)에서 두 규모 모두에서 세 가지 일반화 능력을 모두 보여주었다. 이는 모든 벤치마크에서 OPT보다 상당히 우수한 성능을 발휘할 뿐만 아니라, 각각의 특정 벤치마크에 대해 미세조정된 기존 모델들과도 높은 경쟁력을 갖는다. 본 연구에서는 두 규모의 OPT-IML과 함께 OPT-IML Bench 평가 프레임워크를 공개한다.