17日前
MoViNets:効率的な動画認識のためのモバイル動画ネットワーク
Dan Kondratyuk, Liangzhe Yuan, Yandong Li, Li Zhang, Mingxing Tan, Matthew Brown, Boqing Gong

要約
我々は、ストリーミング動画に対するオンライン推論を可能にする計算およびメモリ効率の高い動画ネットワークである「Mobile Video Networks(MoViNets)」を提案する。3次元畳み込みニューラルネットワーク(3D CNN)は動画認識において高い精度を達成するが、大規模な計算資源とメモリを必要とし、オンライン推論をサポートしないため、モバイルデバイス上で運用することが困難である。本研究では、計算効率を向上させつつ3D CNNのピークメモリ使用量を大幅に削減するための3段階アプローチを提案する。第一に、動画ネットワークの探索空間を設計し、ニューラルアーキテクチャ探索(NAS)を用いて効率的かつ多様な3D CNNアーキテクチャを生成する。第二に、メモリ使用量を動画クリップの長さから分離する「Stream Buffer」技術を導入することで、訓練および推論の両方において任意長のストリーミング動画シーケンスを扱えるようにし、定数的な小さなメモリフットプリントを実現する。第三に、効率を損なわずに精度をさらに向上させるシンプルなアンサンブル手法を提案する。これらの3つの段階的技術により、MoViNetsはKinetics、Moments in Time、Charadesの動画行動認識データセットにおいて、最先端の精度と効率を達成した。例えば、MoViNet-A5-StreamはKinetics 600においてX3D-XLと同等の精度を達成しつつ、FLOPsを80%削減し、メモリ使用量を65%削減した。コードはhttps://github.com/tensorflow/models/tree/master/official/visionにて公開される。