
비디오 질의 응답(Question Answering, VideoQA)은 풍부한 비디오 콘텐츠를 이해하고 시공간적 추론을 수행할 수 있어야 하는 도전적인 과제이다. 그러나 기존의 그래프 기반 방법들은 다단계 추론을 효과적으로 수행하지 못하며, VideoQA의 두 가지 중요한 특성을 간과하고 있다. 첫째, 동일한 비디오에 대해 서로 다른 질문은 관계 추론을 통해 정답을 도출하기 위해 필요한 비디오 클립 또는 객체의 수가 달라질 수 있다. 둘째, 추론 과정에서 외관(apperance) 특징과 운동(motion) 특징 사이에는 복잡한 상호의존성이 존재하며, 이들은 서로 상호 보완적이고 연관되어 있다. 이러한 관찰을 바탕으로, 우리는 엔드투엔드 방식으로 비디오를 추론하는 이중 시각 그래프 추론 유닛(Dual-Visual Graph Reasoning Unit, DualVGR)을 제안한다. 본 연구의 첫 번째 기여는 설명 가능한 질의 처벌 모듈(Query Punishment Module)을 설계한 점이다. 이 모듈은 다중 추론 루프를 통해 관련 없는 시각적 특징을 효과적으로 필터링할 수 있다. 두 번째 기여는 외관 특징과 운동 특징 간의 관계를 효과적으로 포착하기 위해 제안된 비디오 기반 다중 시점 그래프 주의망(Video-based Multi-view Graph Attention Network)이다. 제안한 DualVGR 네트워크는 MSVD-QA 및 SVQA 벤치마크 데이터셋에서 최고 성능을 달성하였으며, MSRVTT-QA 벤치마크에서도 경쟁력 있는 결과를 보였다. 코드는 다음 링크에서 공개되어 있다: https://github.com/MMIR/DualVGR-VideoQA.