7日前

ゼロショット動画質問応答におけるフローズン双方向言語モデルの活用

Antoine Yang, Antoine Miech, Josef Sivic, Ivan Laptev, Cordelia Schmid
ゼロショット動画質問応答におけるフローズン双方向言語モデルの活用
要約

ビデオ質問応答(VideoQA)は、学習に多様なマルチモーダルデータを必要とする複雑なタスクである。しかし、動画に対する質問と回答の手動アノテーションは煩雑であり、スケーラビリティを制限する。この問題に対処するために、最近の手法では、視覚的質問応答データの手動アノテーションを一切行わないゼロショット設定を採用している。特に、Web規模のテキストデータのみで事前学習された固定(frozen)自己回帰型言語モデルをマルチモーダル入力に適応するアプローチが注目されている。一方、本研究では固定された双方向言語モデル(BiLM)を基盤とし、このようなアプローチがゼロショットVideoQAにおいてより強力かつ低コストな代替手段であることを示す。具体的には、(i) 軽量なトレーナブルモジュールを用いて視覚入力を固定BiLMと統合し、(ii) Webから収集したマルチモーダルデータを用いてこれらのモジュールを学習し、(iii) マスクされた言語モデルによる推論を通じてゼロショットVideoQAを実現する。ここでマスクされたテキストは、与えられた質問に対する回答として扱われる。提案手法であるFrozenBiLMは、LSMDC-FiB、iVQA、MSRVTT-QA、MSVD-QA、ActivityNet-QA、TGIF-FrameQA、How2QA、TVQAなど多様なデータセットにおいて、既存の最先端手法を大きく上回る性能を達成した。さらに、少データ(few-shot)および完全教師あり(fully-supervised)設定でも競争力のある性能を示した。本研究のコードとモデルは、https://github.com/antoyang/FrozenBiLM にて公開されている。

ゼロショット動画質問応答におけるフローズン双方向言語モデルの活用 | 最新論文 | HyperAI超神経