17日前
動画内のオブジェクトセグメンテーションにおける3D畳み込みの有効性に関する考察
Sabarinath Mahadevan, Ali Athar, Aljoša Ošep, Sebastian Hennen, Laura Leal-Taixé, Bastian Leibe

要約
動画内のオブジェクトセグメンテーションは、通常、標準的な2D畳み込みネットワークを用いて外観情報と運動情報のそれぞれを別々に処理し、その後、学習された手法によって両者の情報を統合することで達成される。一方、3D畳み込みネットワークは動画分類タスクにおいて成功を収めているが、2D畳み込みネットワークと比較して、動画のピクセル単位の密集的解釈を求める問題への適用はそれほど効果的ではなく、性能面でも前述の手法に後れを取っている。本研究では、3D CNNが顕著オブジェクトセグメンテーションを含む密集型動画予測タスクに効果的に適用可能であることを示す。我々は、標準的な交差エントロピー損失を用いてエンド・ツー・エンドで学習可能な、完全に3D畳み込みから構成されるシンプルながら有効なエンコーダ・デコーダネットワークアーキテクチャを提案する。この目的のため、効率的な3Dエンコーダを活用するとともに、新規の3Dグローバル畳み込み層と3Dリファインメントモジュールを含む3Dデコーダアーキテクチャを提案する。本手法は、DAVIS'16 Unsupservised、FBMS、ViSalの各データセットベンチマークにおいて、既存の最先端手法を大きく上回る性能を達成するとともに、処理速度も向上しており、本アーキテクチャが表現力豊かな時空間特徴を効率的に学習し、高品質な動画セグメンテーションマスクを生成可能であることを示している。本研究で開発したコードおよび学習済みモデルは、https://github.com/sabarim/3DC-Seg にて公開している。