18日前
時空間アテンションを用いた効果的な複数モダリティ関係表現によるグループ活動認識
{AND XU LIU, Dong Wang, Meng Jian, Lifang Wu, HENG FU, Dezhong Xu}
要約
グループ活動認識は、スポーツ解析、自律走行車両、CCTV監視システム、動画要約システムなど広範な応用が期待されるため、近年注目を集めている。従来の多数の手法は、主に外見的特徴(appearance features)を用いる一方で、行動間の潜在的な相互作用情報を十分に考慮していない。本研究では、時空間的な注意メカニズムを備えたマルチモーダル関係表現に基づく、新しいグループ活動認識技術を提案する。まず、シーン内のすべてのオブジェクトを同時に処理するオブジェクト関係モジュールを導入する。このモジュールは、オブジェクトの外見特徴と幾何学的情報の間の相互作用を活用することで、オブジェクト間の関係を効果的にモデル化する。次に、有効な運動特徴を抽出するために、アクション損失を教師信号として用いて光流(optical flow)ネットワークを微調整する。その後、オブジェクト関係と運動表現を効率的に符号化するため、2種類の推論モデル、opt-GRUとrelation-GRUを提案する。これらにより、判別性の高いフレームレベル特徴表現を構築する。最後に、異なる重みでフレームレベル特徴を統合し、効果的なビデオレベル表現を形成するため、注意ベースの時系列集約層を提案する。本手法は、代表的な2つのデータセット(VolleyballデータセットおよびCollective Activityデータセット)において広範な実験を行い、いずれも最先端の性能を達成した。