UNIQORN: RDF 지식 그래프와 자연어 텍스트에 대한 통합 질문 응답

RDF 데이터(예: 지식 그래프)에 대한 질의 응답 기술은 자연어 질의나 단순한 문장형 질의에 대해 명확한 답변을 제공하는 여러 우수한 시스템의 등장으로 크게 발전해왔다. 이러한 시스템 중 일부는 답변 과정에 추가적인 증거로 텍스트 자료를 통합하고 있으나, 텍스트 내에만 존재하는 답변을 계산할 수는 없다. 반면 정보 검색(IR) 및 자연어 처리(NLP) 분야는 텍스트 기반 질의 응답 문제에 주목해왔지만, 이러한 시스템은 의미론적 데이터나 지식을 거의 활용하지 못하고 있다. 본 논문은 RDF 데이터셋과 텍스트 코퍼스의 혼합 또는 개별 자료를 통합된 프레임워크 내에서 원활하게 작동할 수 있는 복잡한 질의에 대한 해결 방법을 제안한다. 제안하는 방법은 UNIQORN이라 명명되며, 미세 조정된 BERT 모델을 활용하여 RDF 데이터와/또는 텍스트 코퍼스에서 질문과 관련된 증거를 검색함으로써 실시간으로 맥락 그래프를 구축한다. 생성된 그래프는 일반적으로 질문과 관련된 모든 증거를 포함하지만, 동시에 많은 노이즈도 포함한다. UNIQORN은 이러한 입력을 처리하기 위해 그룹 스티너 트리(Group Steiner Tree) 알고리즘을 사용하여 맥락 그래프 내에서 최적의 답변 후보를 식별한다. 다수의 복잡한 질의 벤치마크(다수의 실체와 관계를 포함)를 대상으로 한 실험 결과, UNIQORN은 이질적 질의 응답(Heterogeneous QA) 분야의 최첨단 기법들보다 훨씬 뛰어난 성능을 보였다. 이는 완전 학습 모드뿐 아니라 제로샷(Zero-shot) 설정에서도 동일하게 확인되었다. 그래프 기반의 접근 방식은 전체 답변 과정에 대해 사용자 이해가 가능한 증거를 제공한다.