깊은 양방향 언어-지식 그래프 사전학습

언어 모델(LM)을 텍스트로 사전 학습하는 것이 다양한 하류 NLP 작업에 도움이 됨이 입증되었습니다. 최근 연구에서는 지식 그래프(KG)가 텍스트 데이터를 보완하여, 유용한 추론 구조를 제공하는 구조화된 배경 지식을 제시할 수 있음을 보여주었습니다. 그러나 이러한 연구들은 두 모달의 깊은 융합을 대규모로 사전 학습하지 않아, 텍스트와 KG의 완전히 결합된 표현을 획득하는 잠재력을 제한하고 있습니다. 본 논문에서는 DRAGON (깊은 양방향 언어-지식 그래프 사전 학습, Deep Bidirectional Language-Knowledge Graph Pretraining)이라는 접근법을 제안합니다. 이는 텍스트와 KG를 대규모로 결합하여 깊게 연결된 기초 모델을 자가 감독 방식으로 사전 학습하는 방법입니다. 특히, 우리의 모델은 텍스트 조각과 관련된 KG 부분 그래프 쌍을 입력으로 받아, 두 모달 간의 정보를 양방향으로 융합합니다. 우리는 마스킹된 언어 모델링과 KG 링크 예측이라는 두 가지 자가 감독 추론 작업을 통합하여 이 모델을 사전 학습합니다. DRAGON은 일반 및 생물 의학 영역에서의 질문 응답 등 다양한 하류 작업에서 기존 LM 및 LM+KG 모델보다 우수한 성능을 보여주며, 평균적으로 5% 절대적인 개선 효과를 나타냅니다. 특히, DRAGON은 긴 문맥이나 다단계 추론이 포함된 질문에 대한 복잡한 언어와 지식 추론(+10%) 및 저자원 QA(+8% OBQA 및 RiddleSense)에서 뚜렷한 성능을 보였으며, 다양한 BioNLP 작업에서 새로운 최고 성능 결과를 달성했습니다. 우리의 코드와 학습된 모델은 https://github.com/michiyasunaga/dragon 에서 확인할 수 있습니다.