
要約
モノクロ動画におけるオブジェクトのセグメンテーションとトラッキングというタスクは、研究コミュニティから大きな注目を浴びているものの、依然として大幅な改善の余地を有している。既存の研究では、膨張畳み込み(dilated convolution)および変形畳み込み(deformable convolution)が、さまざまな画像レベルのセグメンテーションタスクにおいて有効性を裏付けてきた。このような背景から、これらの畳み込みの3次元(空間時系列)拡張も、動画レベルのセグメンテーションタスクにおいて性能向上をもたらす可能性があると考えられる。しかし、現行の文献においては、この点の検討はまだ十分に行われていない。本論文では、膨張畳み込みと変形畳み込みに着想を得て、それらを3次元(空間時系列)領域に拡張した新たな畳み込み形式である「Dynamic Dilated Convolutions(D2Conv3D)」を提案する。実験的に、標準的な畳み込みにD2Conv3Dを即座に置き換えることで、複数の3D CNNアーキテクチャが、複数の動画セグメンテーション関連ベンチマークにおいて性能向上を達成できることを示した。さらに、既存の膨張および変形畳み込みを3次元に単純に拡張した手法と比較して、D2Conv3Dが優れた性能を発揮することも実証した。最後に、DAVIS 2016 Unsupservised Video Object Segmentationベンチマークにおいて、新たなSOTA(最良の結果)を達成した。実装コードは、https://github.com/Schmiddo/d2conv3d にて公開されている。