2ヶ月前

意味認識メカニズムを備えた弱教師付き時系列行動局所化のための二ストリームネットワーク

{Hongbin Wang, Yadong Li, Yu Wang}
意味認識メカニズムを備えた弱教師付き時系列行動局所化のための二ストリームネットワーク
要約

弱教師付き時系列行動局所化(Weakly-supervised temporal action localization)は、動画レベルのラベルのみを用いて、カットされていない動画(untrimmed videos)における行動の境界を検出することを目的としている。既存の多くの方針は、動画分類タスクにおいて最も反応する時系列領域を検出するが、フレーム間の意味的整合性には十分な配慮がなされていない。本研究では、各スニペット(snippet)に対して教師信号が存在しないにもかかわらず、類似した表現を持つスニペットは同一の行動クラスとみなすべきであるという仮説を提示する。これを実現するために、各行動カテゴリに対応するクラス重心(class centroids)を要素とする学習可能な辞書(learnable dictionary)を設計した。同一行動クラスと同定されたスニペットの表現は、同じクラス重心に近づくように誘導される。この仕組みにより、ネットワークはフレームの意味を適切に捉え、不自然な局所化を回避できる。さらに、細粒度の手がかりを抽出するためのアテンション機構と、顕著な特徴を抽出するためのマルチインスタンス学習(multiple-instance learning)戦略を統合した二重ストリームフレームワークを提案する。これらのアプローチの相補性により、モデルは時系列境界をより精密に修正できる。最後に、公開されているTHUMOS-14およびActivityNet-1.3データセット上で本モデルの有効性を検証した。豊富な実験と分析の結果、従来手法と比較して本モデルが顕著な性能向上を達成していることが示された。