7일 전

와일드QA: 인더와일드 비디오 질의응답

Santiago Castro, Naihao Deng, Pingxuan Huang, Mihai Burzo, Rada Mihalcea

초록

기존의 영상 이해 데이터셋은 대부분 인간 간의 상호작용에 초점을 맞추고 있으며, 실외에서 촬영된 '자연 상태'(in the wild)의 영상에 대한 관심은 거의 제한적이다. 본 연구에서는 실외 환경에서 촬영된 영상들을 포함하는 영상 이해 데이터셋인 WILDQA를 제안한다. 영상 질의응답(Video QA) 외에도, 주어진 질문과 답변에 대한 시각적 근거를 식별하는 새로운 과제인 영상 증거 선택(Video Evidence Selection)을 도입한다. 다양한 기준 모델을 활용한 평가를 통해 WILDQA가 시각과 언어 연구 공동체에게 새로운 도전 과제를 제시함을 보여준다. 본 데이터셋은 https://lit.eecs.umich.edu/wildqa/ 에서 공개되어 있다.