17일 전

지식 통합 디코딩

Ruibo Liu, Guoqing Zheng, Shashank Gupta, Radhika Gaonkar, Chongyang Gao, Soroush Vosoughi, Milad Shokouhi, Ahmed Hassan Awadallah
지식 통합 디코딩
초록

사전 훈련된 언어 모델(LM)은 사전 훈련 코퍼스로부터 상당량의 지식을 기억하고 있음이 입증되었으나, 특정 맥락 하에서 사실적으로 정확한 지식을 재구성하는 데는 여전히 한계가 있다. 따라서 지식 집약적인 자연어 생성(NLG) 작업에서 사용될 경우, 가정에 어긋나거나 환각적인 생성 현상에 취약해지는 경향이 있다. 최근 이러한 문제를 해결하기 위한 접근법은 사전 훈련 또는 작업 맞춤형 미세조정 목적함수를 수정하여 지식을 통합하는 방향으로 나아가고 있다. 그러나 이러한 방법들은 실용적 응용을 위해 추가적인 비용이 드는 훈련 또는 언어 모델의 아키텍처 수정을 요구하는 경우가 일반적이다. 본 연구에서는 생성형 언어 모델을 위한 새로운 디코딩 알고리즘인 지식 주입 디코딩(Knowledge Infused Decoding, KID)을 제안한다. KID는 언어 모델의 각 디코딩 단계에 외부 지식을 동적으로 통합하는 방식으로 작동한다. 구체적으로, 현재 맥락에 기반한 로컬 지식 메모리를 유지하며, 동적으로 생성된 외부 지식 트라이(trie)와 상호작용하면서, 강화학습을 통해 지식 인식형 제약 조건으로 지속적으로 로컬 메모리를 업데이트한다. 여섯 가지 다양한 지식 집약형 NLG 작업에서, KID를 탑재한 작업 무관형 언어 모델(GPT-2, BART 등)은 많은 작업 최적화된 최신 모델들을 상회하며, 일곱 가지 관련 지식 통합 기법 중에서 특히 소량의 예시(few-shot) 상황에서 뛰어난 성능을 보였다. 인간 평가 결과, 다양한 기준 모델과 비교했을 때 KID는 입력 맥락에 더 부합하고 사실적인 언어 생성 능력을 보유하고 있음을 확인하였다. 마지막으로, KID는 노출 편향(Exposure Bias)을 완화하고, 긴 시퀀스 생성 시에도 안정적인 생성 품질을 제공함을 입증하였다. KID의 코드는 https://github.com/microsoft/KID 에서 공개되어 있다.

지식 통합 디코딩 | 최신 연구 논문 | HyperAI초신경