11日前
ピラミッド拡張ディープConvLSTMを用いた動画顕著オブジェクト検出
{Kin-Man Lam, Jianbing Shen, Wenguan Wang, Sanyuan Zhao, Hongmei Song}

要約
本稿では、新たな再帰型ネットワークアーキテクチャ「ピラミッド拡張双方向ConvLSTM(PDB-ConvLSTM)」を基盤として、高速な動画サリエンシー物体検出モデルを提案する。まず、複数スケールにおける空間特徴を同時に抽出できる「ピラミッド拡張畳み込み(PDC)モジュール」を設計した。得られた空間特徴は連結され、拡張された「深層双方向ConvLSTM(DB-ConvLSTM)」に投入され、空間時間的特徴を学習する。前向きおよび後向きのConvLSTMユニットを2層に配置し、段階的に接続することで、双方向ストリーム間の情報伝達を促進し、より深層な特徴抽出を実現している。さらに、複数の拡張畳み込みDB-ConvLSTMを用いてPDCと同様の構造をDB-ConvLSTMに導入し、多スケールの空間時間的特徴を抽出する能力を強化した。広範な実験結果から、本手法は従来の動画サリエンシー検出モデルを大きく上回り、単一GPU上で20fpsのリアルタイム処理速度を達成した。無監督動画オブジェクトセグメンテーションを具体例として適用した場合、提案モデル(CRFベースの後処理を含む)は2つの代表的なベンチマークにおいて最先端の性能を達成し、その優れた性能と高い適用可能性を明確に示している。