REVIVE: 지식 기반 시각 질문 응답에서 지역적 시각 표현의 중요성

이 논문은 지식 기반 시각 질문 응답(VQA)에서 시각적 표현에 대해 재조명하며, 지역 정보를 보다 효과적으로 활용할 경우 성능이 크게 향상될 수 있음을 보여준다. 전통적인 VQA에서는 시각적 표현이 광범위하게 연구되었지만, 두 작업이 모두 시각 입력을 기반으로 질문에 답해야 한다는 공통된 본질을 공유하고 있음에도 불구하고, 지식 기반 VQA에서는 시각적 표현에 대한 연구가 여전히 부족한 실정이다. 구체적으로, 현재 최고 성능을 기록하는 지식 기반 VQA 방법들에서 다음과 같은 현상을 관찰할 수 있다: 1) 시각적 특징은 전반적인 이미지나 슬라이딩 윈도우 방식으로 추출되어 지식을 검색하는 데 사용되며, 개체 영역 내부 또는 간의 중요한 관계가 간과되고 있다; 2) 시각적 특징은 최종 답변 모델에서 충분히 활용되지 않으며, 이는 어느 정도 직관에 어긋나는 현상이다. 이러한 관찰을 바탕으로, 본 연구는 지식 검색 단계뿐 아니라 답변 모델에서도 개체 영역의 명시적 정보를 효과적으로 활용하고자 하는 새로운 지식 기반 VQA 방법인 REVIVE를 제안한다. 주요 동기는 개체 영역과 그 내재된 관계가 지식 기반 VQA에 있어 중요한 역할을 한다는 점이다. 우리는 표준 OK-VQA 데이터셋에서 광범위한 실험을 수행하여, 기존 최고 성능 방법보다 크게 뛰어난 새로운 최고 성능을 달성하였으며, 정확도 58.0%를 기록하였다(+3.6% 향상). 또한, 지식 기반 VQA의 다양한 프레임워크 구성 요소에서 지역 정보의 필요성을 상세히 분석하였다. 코드는 공개적으로 제공되며, https://github.com/yzleroy/REVIVE 에서 확인할 수 있다.