11日前

クロスモーダル一貫性ネットワークを用いた弱教師付き時系列行動定位

Fa-Ting Hong, Jia-Chang Feng, Dan Xu, Ying Shan, Wei-Shi Zheng
クロスモーダル一貫性ネットワークを用いた弱教師付き時系列行動定位
要約

弱教師付き時系列行動定位(WS-TAL)は、ビデオレベルのカテゴリラベルのみを用いて、与えられた動画内に存在する行動インスタンスを特定するという困難なタスクである。従来の研究では、外見的特徴と運動的特徴の両方が用いられているが、それらは適切な方法で統合されておらず、単純な連結やスコアレベルの統合が採用されている。本研究では、事前学習済みの特徴抽出器(例:I3D)から得られる特徴は、WS-TALタスクに特化した特徴ではないため、タスクに不関係な情報の冗長性を低減するための特徴再調整が必要であると主張する。そこで、この問題に対処するため、クロスモーダル一貫性ネットワーク(CO²-Net)を提案する。CO²-Netでは、主モダリティのグローバル情報を用いてタスクに不関係な情報をフィルタリングするためのクロスモーダル注意機構を設計した、同一の2つのクロスモーダル一貫性モジュール(CCM)を導入する。さらに、各CCMから得られる注意重みを、もう一方のCCMの注意重みの疑似ターゲットとして扱い、両CCMの予測結果間の一貫性を維持することで、相互学習の枠組みを構築する。最後に、一般的に用いられる時系列行動定位データセットであるTHUMOS14およびActivityNet1.2において広範な実験を行い、本手法の有効性を検証した結果、最先端の性能を達成した。実験結果から、提案するクロスモーダル一貫性モジュールが、時系列行動定位に適したより代表的な特徴を生成できることを示した。