17日前

X3D:効率的な動画認識のためのアーキテクチャ拡張

Christoph Feichtenhofer
X3D:効率的な動画認識のためのアーキテクチャ拡張
要約

本論文では、空間、時間、幅、深さの複数のネットワーク軸にわたり、極めて小さな2D画像分類アーキテクチャを段階的に拡張する効率的な動画ネットワーク群「X3D」を提案する。機械学習における特徴選択手法をヒントに、各ステップで一つの軸のみを拡張するシンプルな段階的ネットワーク拡張手法を採用することで、精度と計算量の良好なトレードオフを実現している。特定のターゲットの計算複雑度に合わせてX3Dを拡張する際には、前向きな段階的拡張の後に後向きな縮小(コントラクション)を実行する。従来の手法と同等の精度を達成する場合、X3Dは乗算加算演算数(multiply-adds)を4.8倍、パラメータ数を5.5倍少なく抑えながら、最先端の性能を達成している。最も驚くべき発見は、ネットワークの幅やパラメータ数が極めて少ないにもかかわらず、空間時間的解像度が高いネットワークが良好な性能を発揮できることである。本研究では、動画分類および検出のベンチマークにおいて、前例のない高効率性を実現しつつ、競争力のある精度を報告している。コードは以下のURLで公開される予定である:https://github.com/facebookresearch/SlowFast

X3D:効率的な動画認識のためのアーキテクチャ拡張 | 最新論文 | HyperAI超神経