6ヶ月前

概要

効率的な動画・言語モデリングは、膨大かつ場合によっては取り扱いが困難な動画フレーム数を考慮する必要がある。アテンション機構をはじめとするパラメトリックアプローチは、動画の長さが増すにつれて計算コストが二次的に増大するため、必ずしも最適とは言えない。そのため、従来の研究では、動画の効率的表現のため、オフラインでの特徴抽出やフレームサンプリングに依存し、短い動画クリップにおけるクロスモーダルモデリングに焦点を当てていた。本論文では、長時間の未編集動画を対象としたスケーラブルな動画・言語モデリングを実現する新たな視点として、半パラメトリックな動画基盤テキスト生成モデルであるSeViTを提案する。SeViTは動画を外部データストアとして扱い、与えられたクエリに応じてデータストアから関連する少数のフレームを非パラメトリックなフレームリトリーバーで選択し、その後、ラテンフェュージョン手法を用いてクエリとフレームを効果的に統合するパラメトリックな生成器によって処理を行う。実験結果から、本手法は長時間動画や因果的動画理解において顕著な優位性を示すことが明らかになった。さらに、4つの動画・言語データセットにおいて、最新の最先端性能を達成しており、iVQA（+4.8）、Next-QA（+6.9）、ActivityNet-QA（+4.8）において精度で、MSRVTT-CaptionではCIDErスコアでそれぞれ新しい最良記録を更新した。

ソースPDF