2달 전

FVQA: 사실 기반 시각적 질문 응답

Peng Wang; Qi Wu; Chunhua Shen; Anton van den Hengel; Anthony Dick
FVQA: 사실 기반 시각적 질문 응답
초록

시각적 질문 응답(VQA)은 컴퓨터 비전과 자연어 처리 분야에서 많은 주목을 받고 있으며, 이는 두 가지 중요한 정보 출처 간의 관계에 대한 통찰력을 제공하기 때문입니다. 현재 데이터셋과 그 위에 구축된 모델들은 주로 질문과 이미지를 직접 분석하여 답할 수 있는 질문에 초점을 맞추고 있습니다. 이러한 외부 정보가 필요하지 않은 질문들의 집합은 흥미롭지만 매우 제한적입니다. 예를 들어, 상식이나 기본적인 사실 지식이 필요한 질문들은 이 범위에서 배제됩니다. 본 연구에서는 이러한 깊은 추론을 요구하고 지원하는 VQA 데이터셋인 FVQA를 소개합니다. FVQA는 외부 정보가 필요하지 않은 질문만 포함하는 것이 아니라, 외부 정보가 필요한 질문들만 포함합니다.따라서, 기존의 시각적 질문 응답 데이터셋(이미지-질문-답변 트리플렛으로 구성됨)을 확장하여 추가적인 이미지-질문-답변-지원사실 튜플을 포함시킵니다. 지원사실은 <Cat, CapableOf, ClimbingTrees>(고양이, 할 수 있음, 나무 오르기)와 같은 구조화된 트리플렛으로 표현됩니다.FVQA 데이터셋에서 여러 기준 모델들을 평가하였으며, 지원사실을 바탕으로 이미지에 대해 추론할 수 있는 새로운 모델을 설명합니다.

FVQA: 사실 기반 시각적 질문 응답 | 최신 연구 논문 | HyperAI초신경