UL2: 언어 학습 패러다임의 통합

기존 사전 학습 모델은 일반적으로 특정 문제 유형에 초점을 맞추고 있습니다. 현재까지도 적절한 아키텍처와 사전 학습 설정이 무엇인지에 대한 공통된 의견이 아직 형성되지 않았습니다. 본 논문에서는 다양한 데이터셋과 설정에서 효과적인 통합 사전 학습 모델 프레임워크를 제시합니다. 먼저, 종종 혼동되는 두 개념인 아키텍처 원형과 사전 학습 목표를 분리하여 설명합니다. 다음으로, NLP에서 자기 지도 학습의 일반화되고 통합된 관점을 제시하고, 다양한 사전 학습 목표가 서로 어떻게 변환될 수 있으며, 서로 다른 목표 사이에서 보간하는 것이 효과적일 수 있는지를 보여줍니다. 그런 다음, 다양한 사전 학습 패러다임을 결합하는 Mixture-of-Denoisers (MoD)라는 새로운 사전 학습 목표를 제안합니다. 또한 다운스트림 미세 조정이 특정 사전 학습 방식과 연관되어 있다는 모드 전환 개념을 소개합니다. 우리는 여러 가지 사전 학습 목표를 비교하기 위해 광범위한 절차적 실험을 수행하였으며, 우리의 방법이 T5 및 GPT 유사 모델보다 다양한 설정에서 우수한 성능을 보여주어 파레토 최적선(Pareto frontier)을 확장시키는 것을 확인하였습니다.우리의 모델은 200억 개의 매개변수로 확장함으로써 50개 이상의 잘 알려진 감독 기반 NLP 미세 조정 작업에서 최상의 성능(SOTA)을 달성하였습니다. 또한 컨텍스트 내 학습에서도 강력한 결과를 보였으며, zero-shot SuperGLUE에서 1750억 개 매개변수의 GPT-3를 능가하고 one-shot 요약 작업에서는 T5-XXL의 성능을 세 배로 향상시키는 등의 결과를 얻었습니다. 0-shot MMLU에서는 UL2 20B가 T0 및 T5 모델보다 우수한 성능을 보였습니다. UL2 20B는 체인 오브 씽크(chain-of-thought) 프롬프팅과 추론에도 잘 작동하여, 200억 개 매개변수 규모에서 작은 규모부터 중간 규모까지의 추론 연구에 매력적인 선택지가 되었습니다. 마지막으로, 우리는 FLAN 지시어 조정을 UL2 20B 모델에 적용하여 MMLU와 Big-Bench 점수가 FLAN-PaLM 62B와 경쟁할 수 있는 수준에 도달하였습니다. 우리는 Flax 기반 T5X 체크포인트를 UL2 20B 및 Flan-UL2 20B 용으로 공개합니다.