17日前

VRAG:コンテンツベース動画検索のための領域注意グラフ

Kennard Ng, Ser-Nam Lim, Gim Hee Lee
VRAG:コンテンツベース動画検索のための領域注意グラフ
要約

コンテンツベース動画検索(Content-based Video Retrieval: CBVR)は、動画共有プラットフォームにおける動画推薦やフィルタリングなどの応用に用いられている。数十億本に及ぶ動画データベースを扱うためには、固定サイズの埋め込み(embedding)を用いる動画レベルのアプローチが、効率性の観点から好まれている。本論文では、動画レベル手法の最先端性能を向上させる「Video Region Attention Graph Networks(VRAG)」を提案する。VRAGは、領域レベルの特徴を用いて動画をより細かい粒度で表現し、領域間の関係性を通じて動画の空間時間的ダイナミクスを符号化する。本手法は、自己注意機構(self-attention)を用いて領域間の意味的コンテンツに基づく関係性を捉え、グラフ畳み込みの順序不変集約(permutation invariant aggregation)により効果的に統合する。さらに、動画をショット(ショット)に分割し、ショット埋め込みを用いることで、動画レベル手法とフレームレベル手法の性能差を縮小できることを示す。我々は複数の動画検索タスクにおいてVRAGを評価し、動画レベル検索において新たな最先端性能を達成した。また、ショットレベルのVRAGは、既存の動画レベル手法と比較して高い検索精度を示し、かつ評価速度が速いという点でフレームレベル手法に近い性能を実現した。最後に、本研究のコードは公開予定である。