17일 전

언어 모델은 일반 목적의 인터페이스이다.

Yaru Hao, Haoyu Song, Li Dong, Shaohan Huang, Zewen Chi, Wenhui Wang, Shuming Ma, Furu Wei
언어 모델은 일반 목적의 인터페이스이다.
초록

기초 모델은 다양한 하류 응용 분야에서 뛰어난 성능을 보이며 큰 주목을 받고 있다. 아키텍처 측면에서 큰 일치가 이루어지고 있지만, 대부분의 사전 훈련된 모델은 여전히 특정 작업이나 모달리티에 특화되어 개발되고 있다. 본 연구에서는 언어 모델을 다양한 기초 모델 간의 일반적인 인터페이스로 활용하는 방안을 제안한다. 다양한 모달리티(예: 시각, 언어 등)를 인식하는 사전 훈련된 인코더 집합이 존재하며, 이들은 언어 모델과 연결되는데, 이 언어 모델은 통합 작업 계층의 역할을 수행한다. 본 연구에서는 인터페이스와 모듈형 인코더를 공동으로 사전 훈련하기 위해 반인과적 언어 모델링 목적함수를 제안한다. 이 방법은 인과적 모델링과 비인과적 모델링의 장점을 모두 통합함으로써 두 세계의 최고점을 결합한다. 구체적으로 제안된 방법은 인과적 언어 모델링에서 유도되는 컨텍스트 내 학습 및 개방형 생성 능력을 계승할 뿐만 아니라, 양방향 인코더의 특성 덕분에 미세조정(finetuning)에 유리하다. 더욱 중요한 점은, 위의 능력들을 원활하게 조합할 수 있다는 점이다. 예를 들어, 미세조정된 인코더를 활용해 컨텍스트 내 학습이나 지시어 따르기(instruction following)를 가능하게 한다. 다양한 순수 언어 및 시각-언어 벤치마크에서의 실험 결과, 본 모델은 미세조정, 제로샷 일반화, 소량 샘플 학습에서 전문 모델과 비교해 우수하거나 경쟁력을 갖는 성능을 보였다.

언어 모델은 일반 목적의 인터페이스이다. | 최신 연구 논문 | HyperAI초신경