2달 전

TGIF-QA: 시공간 추론을 위한 시각적 질문 응답

Yunseok Jang; Yale Song; Youngjae Yu; Youngjin Kim; Gunhee Kim
TGIF-QA: 시공간 추론을 위한 시각적 질문 응답
초록

시각 및 언어 이해는 인공지능 분야에서 집중적으로 연구되고 있는 주제로 부상하고 있습니다. 이 연구 영역의 여러 과제 중에서 시각적 질문 응답(VQA)은 지역 수준의 시각적 내용을 이해하고 자연어 형태의 질문-응답 쌍과 연관성을 찾는 모델을 학습하는 것을 목표로 하여 가장 성공적인 과제 중 하나로 자리 잡았습니다. 최근 몇 년간 빠른 발전이 이루어졌음에도 불구하고, 기존의 VQA 연구 대부분은 이미지에 초점을 맞추고 있었습니다. 본 논문에서는 VQA를 비디오 영역으로 확장하는 데 중점을 두고 세 가지 중요한 방식으로 문헌에 기여합니다. 첫째, 비디오 VQA를 위해 특별히 설계된 세 가지 새로운 과제를 제안하며, 이들 과제는 질문을 올바르게 답변하기 위해 비디오에서 공간-시간 추론이 필요합니다. 둘째, 기존 VQA 작업을 우리의 새로운 과제와 함께 확장하는 대규모 비디오 VQA 데이터셋인 TGIF-QA를 소개합니다. 셋째, 공간적 및 시간적 주의력을 모두 포함한 듀얼-LSTM 기반 접근법을 제안하고, 경험적 평가를 통해 이 방법이 전통적인 VQA 기술보다 우수함을 보입니다.