17日前

MVFNet:効率的な動画認識のためのマルチビュー融合ネットワーク

Wenhao Wu, Dongliang He, Tianwei Lin, Fu Li, Chuang Gan, Errui Ding
MVFNet:効率的な動画認識のためのマルチビュー融合ネットワーク
要約

従来、時空間モデリングネットワークおよびその複雑さは、動画行動認識分野における最も注目される研究テーマの2つである。現在の最先端手法は、複雑さを無視しても高い精度を達成しているが、効率的な時空間モデリング手法は性能面でやや劣っている。本論文では、効率性と有効性の両立を同時に達成することを目的としている。まず、従来の高さ×幅×時間(H × W × T)の動画フレームを空間時間信号として扱う(高さ-幅平面から観察する)方法に加えて、高さ-時間および幅-時間の2つの別々の平面からも動画をモデリングすることを提案する。これにより、動画の動的変化をより包括的に捉えることが可能となる。次に、本モデルは2D CNNのバックボーンに基づいて設計されており、設計段階からモデルの複雑さを適切に制御している。具体的には、効率性を重視して分離可能畳み込み(separable convolution)を用いた新しい多視点融合(Multi-view Fusion, MVF)モジュールを導入した。このモジュールはプラグアンドプレイ型であり、既存の2D CNNに簡単に組み込むことができ、シンプルながら効果的なモデルであるMVFNetを構築できる。さらに、MVFNetは一般化された動画モデリングフレームワークとして捉えることができ、異なる設定下では既存の手法(例:C2D、SlowOnly、TSM)に特化した形で実現可能である。多数の主要ベンチマーク(すなわち、Something-Something V1 & V2、Kinetics、UCF-101、HMDB-51)における広範な実験を通じて、その優位性を示した。提案するMVFNetは、2D CNNの複雑さを維持しつつ、最先端の性能を達成することが可能である。

MVFNet:効率的な動画認識のためのマルチビュー融合ネットワーク | 最新論文 | HyperAI超神経