17일 전
지식 그래프를 이용한 제로샷 시각 질문 응답
Zhuo Chen, Jiaoyan Chen, Yuxia Geng, Jeff Z. Pan, Zonggang Yuan, Huajun Chen

초록
시각질의응답(VQA)에 외부 지식을 통합하는 것은 점점 더 중요한 실용적 요구로 부상하고 있다. 기존의 방법들은 주로 지식 매칭 및 추출, 특징 학습 등의 다양한 모듈을 갖춘 파이프라인 접근 방식을 채택하고 있다. 그러나 이러한 파이프라인 접근 방식은 일부 모듈이 성능을 제대로 발휘하지 못할 경우 전체 시스템의 성능이 저하되며, 오류 전파 문제를 야기한다. 더불어 기존 대부분의 접근 방식은 답변 편향(Answer Bias) 문제를 간과하고 있다. 실세계 응용 환경에서 많은 답변은 훈련 과정에서 등장하지 않은 ‘미등장 답변( unseen answers)’일 수 있기 때문이다. 이러한 문제를 해결하기 위해 본 논문에서는 지식 그래프와 마스크 기반 학습 메커니즘을 활용한 제로샷(VQA) 알고리즘을 제안하며, F-VQA 데이터셋을 위한 새로운 답변 기반 제로샷 VQA 분할 방식을 제시한다. 실험 결과, 제안한 방법은 미등장 답변을 포함한 제로샷 VQA에서 최신 기술 수준의 성능을 달성할 뿐만 아니라, 기존 엔드투엔드 모델의 일반적인 F-VQA 작업 성능도 크게 향상시켰다.