KRISP: 개방형 도메인 지식 기반 VQA를 위한 암묵적 지식과 기호적 지식의 통합

비주얼 질문 응답(VQA)에서 가장 도전적인 질문 유형 중 하나는 이미지 내에 존재하지 않는 외부 지식이 필요할 때이다. 본 연구에서는 질문에 답하기 위해 필요한 지식이 훈련 또는 테스트 시점에 제공되거나 주석이 되어 있지 않은, 즉 오픈 도메인 지식(open-domain knowledge) 설정을 탐구한다. 우리는 두 가지 유형의 지식 표현과 추론 방식을 활용한다. 첫째, 트랜스포머 기반 모델을 사용해 비감독 언어 사전 학습 및 감독 학습 데이터로부터 효과적으로 학습할 수 있는 암묵적 지식(implicit knowledge)이다. 둘째, 지식베이스에 인코딩된 명시적이고 기호적인 지식(explicit, symbolic knowledge)이다. 본 연구의 접근법은 두 가지를 결합한다. 즉, 트랜스포머 모델의 강력한 암묵적 추론 능력을 활용해 답변을 예측하고, 지식 그래프로부터 얻은 기호적 표현을 통합하면서도, 그 명시적 의미를 암묵적 임베딩으로 인해 상실하지 않는다. 다양한 지식 소스를 결합함으로써 지식 기반 질문을 해결하기 위해 필요한 광범위한 지식을 포괄한다. 우리는 KRISP(Knowledge Reasoning with Implicit and Symbolic rePresentations)라는 제안된 방법이 오픈 도메인 지식 기반 VQA에 대해 가장 큰 공개 데이터셋인 OK-VQA에서 최신 기술(SOTA)을 크게 능가함을 보여준다. 광범위한 분석을 통해, 모델이 암묵적 지식 추론을 성공적으로 활용함에도 불구하고, 지식 그래프와 답변 어휘를 명시적으로 연결하는 기호적 답변 모듈이 본 방법의 성능에 결정적인 역할을 하며, 드물게 등장하는 답변에도 일반화될 수 있음을 입증한다.