
要約
密なオプティカルフロー推定は、多くのロボットビジョンタスクにおいて重要な役割を果たしている。近年、ディープラーニングの登場により、オプティカルフロー推定分野では著しい進展が見られた。しかし、現在の多数のネットワークはパラメータ数が多く、計算コストが非常に高いため、スマートフォンなど低消費電力デバイスへの応用が大きく制限されている。本論文では、この課題に取り組み、高速かつ高精度なオプティカルフロー予測を実現する軽量モデルを提案する。提案手法であるFastFlowNetは、広く採用されている粗いから細かいレベルへの段階的アプローチ(coarse-to-fine)を採用しつつ、以下の革新を導入している。第一に、高解像度のピラミッド特徴量を強化しつつパラメータ数を削減する新たなヘッド強化ピラミッドプーリング(HEPP)特徴抽出器を採用した。第二に、計算負荷を低減しつつも広範囲な探索半径を維持可能な、コンパクトなコストボリュームを構築するための新しいセンター密集型拡張相関(CDDC)層を導入した。第三に、各ピラミッドレベルに効率的なシャッフルブロックデコーダ(SBD)を組み込み、精度のわずかな低下でフロー推定を高速化した。合成データであるSintelおよび実世界データであるKITTIデータセットを用いた実験により、本手法の有効性が実証された。その結果、同等の精度を達成するための計算量は、比較対象となるネットワークの1/10にまで削減された。特に、FastFlowNetはパラメータ数がわずか137万(1.37M)であり、1024×436解像度のSintel画像ペアに対して、単一のGTX 1080Tiでは90FPS、埋め込み型GPUのJetson TX2では5.7FPSで実行可能である。