컨텍스트 기반 지식: 지식 기반 반파라메트릭 언어 모델로의 도전

일반적으로 완전히 파라미터화된 언어 모델은 제로샷/페이샷 설정에서 여러 자연어 작업을 해결하기 위해 필요한 지식을 저장하기 위해 막대한 수의 모델 파라미터를 필요로 한다. 또한, 비용이 큰 모델 재학습 없이 진화하는 세계 지식에 적응하는 것은 어렵다. 본 논문에서는 파라미터화된 텍스트-투-텍스트 언어 모델에 지식이 풍부한 외부 메모리를 부여하는 새로운 반파라미터화 언어 모델 아키텍처인 지식-컨텍스트(KiC)를 제안한다. 구체적으로, 외부 메모리는 실체(entity), 사전(dictionary), 일반 지식(common sense), 사건(event), 스크립트(script), 인과관계(causality)의 여섯 가지 서로 다른 유형의 지식을 포함한다. 입력 인스턴스마다 KiC 모델은 적절한 지식 유형을 자동으로 선택하고 가장 유용한 지식 조각을 검색한다. 이 입력 인스턴스와 함께 지식 증강된 정보는 텍스트-투-텍스트 모델(예: T5)에 입력되어 출력 답변을 생성하며, 프롬프팅 이후 입력과 출력 모두 자연어 형식으로 표현된다. 흥미롭게도, KiC가 특수한 믹스처 오브 익스퍼트(MoE) 모델로 해석될 수 있음을 발견했다. 이 경우 지식 선택기(routing)는 MoE에서 시퀀스-익스퍼트 할당을 결정하는 라우터의 역할을 수행한다. 이 핵심적 관찰은 인스턴스별 적응형 지식 선택기를 갖춘 KiC를 학습하기 위한 새로운 알고리즘을 개발하는 데 영감을 주었다. 지식이 풍부한 반파라미터화 언어 모델로서 KiC는 훨씬 작은 파라미터 부분만으로도 미지의 작업에서 뛰어난 제로샷 성능을 달성할 수 있다. 40개 이상의 다양한 작업에 대한 평가를 통해, 7억 7천만 파라미터를 가진 KiC_Large가 4~39배 더 큰 대규모 언어 모델(LM)을 크게 앞질러 우수한 성능을 보임을 입증하였다. 또한, 기존의 완전히 파라미터화된 모델에 비해 훨씬 더 작은 모델 규모에서도 KiC가 급성장하는 능력을 보여줌으로써, 새로운 잠재적 능력이 나타남을 확인하였다.