17일 전

언어 모델은 일반 목적의 인터페이스이다.

Yaru Hao, Haoyu Song, Li Dong, Shaohan Huang, Zewen Chi, Wenhui Wang, Shuming Ma, Furu Wei

초록

기초 모델은 다양한 하류 응용 분야에서 뛰어난 성능을 보이며 큰 주목을 받고 있다. 아키텍처 측면에서 큰 일치가 이루어지고 있지만, 대부분의 사전 훈련된 모델은 여전히 특정 작업이나 모달리티에 특화되어 개발되고 있다. 본 연구에서는 언어 모델을 다양한 기초 모델 간의 일반적인 인터페이스로 활용하는 방안을 제안한다. 다양한 모달리티(예: 시각, 언어 등)를 인식하는 사전 훈련된 인코더 집합이 존재하며, 이들은 언어 모델과 연결되는데, 이 언어 모델은 통합 작업 계층의 역할을 수행한다. 본 연구에서는 인터페이스와 모듈형 인코더를 공동으로 사전 훈련하기 위해 반인과적 언어 모델링 목적함수를 제안한다. 이 방법은 인과적 모델링과 비인과적 모델링의 장점을 모두 통합함으로써 두 세계의 최고점을 결합한다. 구체적으로 제안된 방법은 인과적 언어 모델링에서 유도되는 컨텍스트 내 학습 및 개방형 생성 능력을 계승할 뿐만 아니라, 양방향 인코더의 특성 덕분에 미세조정(finetuning)에 유리하다. 더욱 중요한 점은, 위의 능력들을 원활하게 조합할 수 있다는 점이다. 예를 들어, 미세조정된 인코더를 활용해 컨텍스트 내 학습이나 지시어 따르기(instruction following)를 가능하게 한다. 다양한 순수 언어 및 시각-언어 벤치마크에서의 실험 결과, 본 모델은 미세조정, 제로샷 일반화, 소량 샘플 학습에서 전문 모델과 비교해 우수하거나 경쟁력을 갖는 성능을 보였다.