8ヶ月前

概要

時間的アクション提案生成は重要なタスクであり、トリミングされていない動画の中で人間の行動を含む動画セグメントを局所化することを目指しています。本論文では、異なる粒度の観点から時間的アクション提案を行うため、位置埋め込み情報付きのビデオ視覚特徴を用いた多粒度ジェネレータ（MGG）を提案します。まず、ビデオシーケンス内の豊富な局所情報を活用するために、双線形マッチングモデルを使用することを提案します。その後、セグメント提案プロデューサ（SPP）とフレームアクションネスプロデューサ（FAP）という2つのコンポーネントが組み合わさって、2つの異なる粒度で時間的アクション提案タスクを行います。SPPは特徴ピラミッドの形式で全体のビデオを考え、粗い観点からセグメント提案を生成します。一方、FAPは各ビデオフレームに対してより細かいアクションネス評価を行います。我々が提案するMGGはエンドツーエンドで学習することができます。粗いセグメント提案を細かい粒度のフレームアクションネス情報で時間的に調整することで、MGGは公開されているTHUMOS-14およびActivityNet-1.3データセットにおいて最先端手法よりも優れた性能を達成しました。さらに、既存のアクション分類器を使用してMGGによって生成された提案の分類を行い、ビデオ検出タスクにおける競合手法に比べて大幅な改善が見られました。注：「frame actionness」（フレームアクションネス）という用語は一般的ではなく、「各フレームにおける行動の確実性」や「各フレームにおける行動の程度」などと解釈されることがあります。ただし、本訳では原文に忠実であるために「フレームアクションネス」と訳しています。

ソースPDF