2달 전

표시, 질문, 주의 집중, 그리고 답변: 시각적 질문 응답을 위한 강력한 기준선

Vahid Kazemi; Ali Elqursh

초록

본 논문은 시각적 질문 응답 작업을 위한 새로운 기준 모델을 제시합니다. 이미지와 자연어로 된 질문이 주어질 때, 본 모델은 이미지의 내용에 따라 정확한 답변을 생성합니다. 본 모델은 구조적으로 간단하고 학습 가능한 매개변수의 수가 상대적으로 적음에도 불구하고, 불균형 및 균형 VQA 벤치마크에서 새로운 최고 성능을 달성하였습니다. VQA 1.0 오픈 엔디드 챌린지에서 본 모델은 추가 데이터를 사용하지 않은 상태에서 테스트 표준 세트에서 64.6%의 정확도를 기록하여 기존 최고 성능보다 0.4% 개선되었습니다. 또한 새로 출시된 VQA 2.0에서는 검증 세트에서 59.7%의 점수를 얻어 이전에 보고된 최고 결과보다 0.5% 우수한 성능을 보였습니다.본 논문에서 제시된 결과는 특히 흥미롭습니다. 유사한 모델들이 이전에 시도되었지만, 그 성능은 크게 낮게 보고되었기 때문입니다. 새로운 결과를 바탕으로, 앞으로 시각적 질문 응답 분야에서 더 의미 있는 연구가 이루어지기를 기대합니다.