17일 전

이미지 풀에서의 답변 마이닝: 검색 기반 시각적 질의 응답을 향하여

Abhirama Subramanyam Penamakuri, Manish Gupta, Mithun Das Gupta, Anand Mishra
이미지 풀에서의 답변 마이닝: 검색 기반 시각적 질의 응답을 향하여
초록

우리는 질문에 대한 답변이 주어진 관련 이미지와 비관련 이미지의 집합(컨텍스트)에서 탐색되어야 하는 환경에서 시각적 질문 응답(VQA)을 연구한다. 이러한 설정에서는 모델이 먼저 컨텍스트 내에서 관련 이미지를 검색한 후, 검색된 이미지들을 기반으로 질문에 답해야 한다. 이 문제를 ‘검색 기반 시각적 질문 응답’(Retrieval-based Visual Question Answering, 약자로 RETVQA)이라 부른다. RETVQA는 기존에 널리 연구되어온 시각적 질문 응답(VQA)과는 본질적으로 다르며, 더 높은 도전 과제를 지닌다. 기존 VQA는 질문에 대해 컨텍스트 내 단일한 관련 이미지 하나를 기반으로 답해야 하는 반면, RETVQA는 여러 이미지 중에서 관련 이미지를 먼저 검색해야 하기 때문이다. RETVQA 문제를 해결하기 위해, 우리는 자유로운 문장 형식의 답변 생성을 위해 질문과 검색된 이미지를 입력으로 받아들이는 통합형 다중 이미지 BART(MI-BART) 모델을 제안한다. 또한, 본 연구 분야에서 가장 큰 데이터셋인 RETVQA를 소개한다. 이 데이터셋의 주요 특징은 다음과 같다: VQA에 대한 다중 이미지 및 검색 요구 조건, 다양한 종류의 이미지로 구성된 컨텍스트에서 메타데이터에 의존하지 않는 질문, 그리고 분류 중심과 개방형 생성형 답변의 혼합을 기대하는 점이다. 제안하는 프레임워크는 자체 개발한 RETVQA 데이터셋에서 정확도 76.5%, 자연스러움(플루언시) 79.3%를 달성하였으며, 공개된 WebQA 데이터셋의 이미지 세그먼트에서 기존 최고 수준의 방법들보다 정확도 4.9%, 플루언시 11.8% 각각 우수한 성능을 보였다.

이미지 풀에서의 답변 마이닝: 검색 기반 시각적 질의 응답을 향하여 | 최신 연구 논문 | HyperAI초신경