2ヶ月前

進化する時空ニューラルアーキテクチャのビデオへの応用

AJ Piergiovanni; Anelia Angelova; Alexander Toshev; Michael S. Ryoo
進化する時空ニューラルアーキテクチャのビデオへの応用
要約

我々は、ビデオ内の豊富な空間時間情報を捉えるCNNアーキテクチャを見つける新しい手法を提案します。従来の研究では、3次元畳み込みを利用することで、手動で設計されたビデオCNNアーキテクチャが有望な結果をもたらしました。本研究では、空間と時間的な側面の相互作用を共同で学習するための異なる種類や層の組み合わせを持つモデルを自動的に探索する新しい進化探索アルゴリズムを開発しました。このアルゴリズムの汎用性を示すために、2つのメタアーキテクチャに適用し、手動で設計されたアーキテクチャよりも優れた新しいアーキテクチャを得ました。さらに、我々は新しいコンポーネントであるiTGM層(Interactive Temporal Group Module layer)を提案します。この層はパラメータをより効率的に利用し、より長い時間範囲での空間時間相互作用の学習を可能にします。進化探索アルゴリズムはしばしばiTGM層を選択し、コスト効率の高いネットワーク構築を可能にします。提案された手法は、以前に知られていなかった新しい多様なビデオアーキテクチャを見出します。特に重要な点は、これらのアーキテクチャが精度が高くかつ処理速度が速いことであり、HMDB、Kinetics、Moments in Timeなど複数のデータセットにおいて最先端の結果を超えることを示しています。今後の中間層開発を促進するために、コードとモデルをオープンソース化する予定です。