한 달 전

TVQA+: 비디오 질문 응답을 위한 시공간 기반

Jie Lei; Licheng Yu; Tamara L. Berg; Mohit Bansal
TVQA+: 비디오 질문 응답을 위한 시공간 기반
초록

우리는 Spatio-Temporal Video Question Answering(시공간 영상 질문 응답)이라는 과제를 제시합니다. 이 과제는 지능형 시스템이 관련 순간을 동시에 검색하고 질문 및 답변에서 언급된 시각적 개념(사람과 물체)을 감지하여 영상에 대한 자연어 질문에 답하는 것을 요구합니다. 먼저, TVQA 데이터셋을 310,800개의 바운딩 박스로 확장하여 질문과 답변에서 언급된 시각적 개념과 그림 속 객체를 연결하였습니다. 이를 확장한 버전을 TVQA+라고 명명하였습니다. 다음으로, Spatio-Temporal Answerer with Grounded Evidence(STAGE)(시공간 근거 기반 응답자)라는 통합 프레임워크를 제안합니다. 이 프레임워크는 공간적 및 시간적 영역에서 근거를 연결하여 영상에 대한 질문에 답합니다. 포괄적인 실험 및 분석을 통해 우리의 프레임워크의 효과성과 TVQA+ 데이터셋의 풍부한 주석이 질문 응답 과제에 어떻게 기여할 수 있는지를 보여주었습니다. 또한, 이 복합적인 과제 수행을 통해 우리의 모델은 통찰력 있고 해석 가능한 시공간 주의력 시각화를 생성할 수 있음을 확인하였습니다. 데이터셋과 코드는 공개적으로 이용 가능하며, 다음 링크에서 확인하실 수 있습니다: http://tvqa.cs.unc.edu, https://github.com/jayleicn/TVQAplus

TVQA+: 비디오 질문 응답을 위한 시공간 기반 | 최신 연구 논문 | HyperAI초신경