9일 전

오픈-보라비리티 비디오 질의응답: 비디오 질의응답 모델의 일반화 능력을 평가하기 위한 새로운 벤치마크

Dohwan Ko, Ji Soo Lee, Miso Choi, Jaewon Chu, Jihwan Park, Hyunwoo J. Kim
오픈-보라비리티 비디오 질의응답: 비디오 질의응답 모델의 일반화 능력을 평가하기 위한 새로운 벤치마크
초록

비디오 질의응답(Video Question Answering, VideoQA)은 복잡한 다중 모달 추론을 요구하는 도전적인 과제이다. 다중 선택형 VideoQA는 주어진 몇 가지 선택지 중에서 정답을 예측하는 것을 목표로 하지만, 개방형(Open-ended) VideoQA의 목적은 후보 정답을 제한하지 않고 질문에 직접 답변하는 것이다. 그러나 기존 대부분의 VideoQA 모델들은 개방형 VideoQA를 고정된 정답 집합(즉, 폐쇄어휘, closed-vocabulary)에 속하는 정답들로 분류하는 분류 과제로 다루고 있다. 이는 흔한 정답들(예: 상위 1,000개 정답)만 포함하는 제한된 어휘 집합을 사용함으로써, 모델이 흔한 정답에 편향되며, 어휘 외(Out-of-vocabulary)의 드문 또는 미리 보지 못한 정답에 대해 일반화하기 어렵게 만든다. 따라서 우리는 드문 정답과 미리 보지 못한 정답을 고려함으로써 VideoQA 모델의 일반화 능력을 측정할 수 있도록 새로운 벤치마크인 개방형 비디오 질의응답(Open-vocabulary Video Question Answering, OVQA)을 제안한다. 또한 모델의 일반화 능력을 향상시키기 위해, 유사한 단어들로부터 정보를 집계함으로써 드문 및 미리 보지 못한 정답에 대한 예측을 강화하는 새로운 GNN 기반 소프트 버벌라이저(soft verbalizer)를 도입한다. 평가를 위해, 기존의 폐쇄어휘 기반 개방형 VideoQA 모델을 수정하여 새로운 벤치마크를 설정하고, 드문 및 미리 보지 못한 정답을 추가로 고려함으로써 성능을 향상시켰다. 제안된 모델의 추론 실험 및 정성적 분석을 통해, GNN 기반 소프트 버벌라이저가 특히 드문 및 미리 보지 못한 정답에 대해 모델 성능을 더욱 개선함을 입증하였다. 본 연구에서 제안한 OVQA 벤치마크가 VideoQA 모델의 일반화 능력을 평가하는 지침이 되기를 기대하며, 향후 연구를 촉진할 수 있기를 희망한다. 코드는 https://github.com/mlvlab/OVQA 에서 제공된다.