15日前

動画における時系列行動局所化のためのグラフ畳み込みモジュール

Runhao Zeng, Wenbing Huang, Mingkui Tan, Yu Rong, Peilin Zhao, Junzhou Huang, Chuang Gan
動画における時系列行動局所化のためのグラフ畳み込みモジュール
要約

時間的アクションローカライゼーションは、コンピュータビジョン分野において長年にわたり研究が進められてきたテーマである。現在の最先端のアクションローカライゼーション手法は、動画を複数のアクションユニット(2段階手法における提案領域や、1段階手法におけるセグメント)に分割し、それぞれに対して個別にアクション認識または回帰を行うが、学習過程においてこれらのユニット間の関係を明示的に活用していない。本論文では、アクションユニット間の関係がアクションローカライゼーションにおいて重要な役割を果たすと主張し、より強力なアクション検出器は、各アクションユニットの局所的な内容を捉えるだけでなく、その関連する文脈に対する広い視野を持つべきであると提唱する。これを実現するために、既存のアクションローカライゼーション手法(2段階および1段階のアーキテクチャを含む)に簡単に統合可能な汎用的なグラフ畳み込みモジュール(GCM: General Graph Convolutional Module)を提案する。具体的には、各アクションユニットをノード、2つのアクションユニット間の関係をエッジとして表現するグラフを構築する。ここで、異なるアクションユニット間の時系列的つながりを捉えるための関係と、それらの意味的関係を特徴づけるための関係の2種類のエッジを用いる。特に2段階手法における時系列的関係については、重複するアクションユニットを結ぶエッジと、隣接するが重複しないユニットを結ぶエッジという2つの異なる種類のエッジをさらに検討する。構築したグラフ上で、グラフ畳み込みネットワーク(GCN)を適用し、異なるアクションユニット間の関係をモデル化する。これにより、アクションローカライゼーションの性能を向上させるより情報量の多い表現を学習可能となる。実験結果から、本手法が既存のアクションローカライゼーション手法(例:2段階手法であるCBRおよびR-C3D、1段階手法であるD-SSAD)において一貫して性能向上を示すことが確認され、GCMの汎用性と有効性が実証された。

動画における時系列行動局所化のためのグラフ畳み込みモジュール | 最新論文 | HyperAI超神経