2ヶ月前
AssembleNet: ビデオアーキテクチャにおけるマルチストリームニューラル接続の探索
Ryoo, Michael S. ; Piergiovanni, AJ ; Tan, Mingxing ; Angelova, Anelia

要約
ビデオの表現を学習することは、アルゴリズム的にも計算的にも非常に困難な課題である。標準的なビデオCNNアーキテクチャは、画像理解のために設計されたアーキテクチャを直接拡張して時間次元を含める方法、または2ストリーム設計を使用してビデオ内の外観と動きを捕捉する方法によって設計されてきた。私たちはビデオCNNを複数のストリームを持つ畳み込みブロックの集合体として解釈し、これらのブロックが互いに接続され、より優れた接続性と時空間相互作用を持つニューラルアーキテクチャを自動的に見つける手法を提案する。これは、接続重み学習によって導かれる過剰に接続されたアーキテクチャの集団を進化させることで行われる。異なる入力タイプ(RGBおよび光流)を複数の時間解像度で抽象化する表現を組み合わせるアーキテクチャを探し、異なる情報タイプや情報源が互いに相互作用できるようにする。私たちの手法、AssembleNet(アセンブルネット)は公開ビデオデータセットにおいて既存の手法よりも優れた性能を示し、いくつかの場合では大幅に上回っている。Charadesデータセットでは58.6%のmAP(平均精度)、Moments-in-Timeデータセットでは34.27%の精度を得ている。