7일 전

MIST: 장형 비디오 질문 응답을 위한 다중 모달 반복 공간-시계열 변환기

Difei Gao, Luowei Zhou, Lei Ji, Linchao Zhu, Yi Yang, Mike Zheng Shou
MIST: 장형 비디오 질문 응답을 위한 다중 모달 반복 공간-시계열 변환기
초록

일상 활동에서 인간을 지원할 수 있는 비디오 질의응답(VideoQA) 시스템을 구축하기 위해서는, 다양한 복잡한 이벤트를 포함한 장시간 비디오에서 질문에 대한 답을 탐색하는 것이 필수적이다. 기존의 다중 모달 VQA 모델은 이미지나 짧은 비디오 클립에서 뛰어난 성능을 달성하고 있으며, 특히 최근 대규모 다중 모달 사전학습 기술의 성공에 힘입어 더욱 향상되었다. 그러나 이러한 방법들을 장시간 비디오에 확장할 경우, 새로운 도전 과제가 발생한다. 한편으로는 밀도 높은 비디오 샘플링 전략은 계산 비용 측면에서 비현실적이며, 다른 한편으로는 희소 샘플링에 의존하는 기법은 다중 이벤트 및 다중 해상도 시각적 추론이 필요한 상황에서는 성능이 저하된다. 본 연구에서는 장시간 비디오 질의응답에 더 잘 적합하도록 사전학습된 모델을 활용할 수 있도록 새로운 모델인 다중 모달 반복적 공간-시간 트랜스포머(Multi-modal Iterative Spatial-temporal Transformer, MIST)를 제안한다. 구체적으로 MIST는 기존의 밀도 높은 공간-시간 자기주의(self-attention)를 계단식으로 연결된 세그먼트 및 영역 선택 모듈로 분해하여, 질문과 직접적으로 관련성이 높은 프레임과 이미지 영역을 적응적으로 선택한다. 이후 다양한 해상도의 시각적 개념들은 주의(attention) 모듈을 통해 효율적으로 처리된다. 또한 MIST는 여러 계층에 걸쳐 반복적으로 선택과 주의 메커니즘을 수행함으로써, 다수의 이벤트에 걸친 추론을 지원한다. AGQA, NExT-QA, STAR, Env-QA 등 네 가지 VideoQA 데이터셋에서의 실험 결과에 따르면, MIST는 최신 기술 수준(SOTA)의 성능을 달성하였으며, 계산 효율성과 해석 가능성 면에서도 뛰어난 우수성을 입증하였다.

MIST: 장형 비디오 질문 응답을 위한 다중 모달 반복 공간-시계열 변환기 | 최신 연구 논문 | HyperAI초신경