9일 전

ATM: 비디오 질문 응답을 위한 동작 시계열 모델링

Junwen Chen, Jie Zhu, Yu Kong
ATM: 비디오 질문 응답을 위한 동작 시계열 모델링
초록

비디오 질의응답(VideoQA) 분야에서 상당한 진전이 있었음에도 불구하고, 기존의 방법들은 프레임 간 인과적/시제적 추론이 필요한 질문에 대해 여전히 한계를 보이고 있다. 이는 정확도가 낮은 운동 표현에 기인한다. 본 연구에서는 세 가지 독특한 특징을 통해 시제적 추론을 가능하게 하는 '행동 시제성 모델링(Action Temporality Modeling, ATM)'을 제안한다. 첫째, 광학 흐름(optical flow)의 재고를 통해 장기적 시제적 추론을 효과적으로 포착할 수 있음을 인식한다. 둘째, 행동 중심적인 관점에서 시각-텍스트 임베딩을 대조 학습(contrastive learning) 방식으로 학습함으로써, 시각과 텍스트 모달리티 모두에서 보다 우수한 행동 표현을 도출한다. 셋째, 최적화 단계에서 비디오의 프레임을 무작위로 재배열한 경우에도 질문에 답하도록 모델을 훈련시키지 않음으로써, 외형과 운동 간의 부자연스러운 상관관계를 방지하고, 신뢰할 수 있는 시제적 추론을 보장한다. 실험 결과, ATM은 여러 VideoQA 데이터셋에서 기존 방법들을 능가하는 정확도를 보이며, 더 우수한 진정한 시제적 추론 능력을 갖추고 있음을 입증하였다.