9日前
オープンボリューム動画質問応答:動画質問応答モデルの汎化能力を評価するための新しいベンチマーク
Dohwan Ko, Ji Soo Lee, Miso Choi, Jaewon Chu, Jihwan Park, Hyunwoo J. Kim

要約
ビデオ質問応答(VideoQA)は、複雑なマルチモーダル推論を要する挑戦的なタスクである。複数選択型VideoQAは、複数の選択肢の中から正解を予測することを目的としているのに対し、オープンエンド型VideoQAの目的は、候補となる回答を制限せずに質問に回答することにある。しかし、従来の多数のVideoQAモデルは、オープンエンド型VideoQAを固定された回答集合(つまり、閉鎖語彙)に分類する分類タスクとして定式化しており、その集合には頻出する回答(例:上位1000語)のみが含まれている。このアプローチにより、モデルは頻出回答に偏り、未知語彙(out-of-vocabulary)の回答に対する一般化能力に欠ける。そこで、希少かつ未観測の回答を考慮することで、VideoQAモデルの一般化能力を測定できる新しいベンチマーク「オープン語彙ビデオ質問応答(OVQA)」を提案する。さらに、モデルの一般化能力を向上させるために、類似語から情報を集約することで希少・未観測回答の予測を強化する、新しいGNNベースのソフトバーバライザーを導入する。評価のため、既存の(閉鎖語彙型)オープンエンド型VideoQAモデルを修正して新たなベースラインを構築し、希少・未観測回答をさらに考慮することで性能を向上させた。アブレーションスタディおよび定性的分析の結果、本研究で提案するGNNベースのソフトバーバライザーは、特に希少・未観測回答に対してモデル性能をさらに向上させることを示した。本研究のベンチマークOVQAが、VideoQAモデルの一般化能力評価の指針となり、今後の研究を促進することを期待する。コードは https://github.com/mlvlab/OVQA にて公開されている。