
視覚分野における多くの古典的タスク——例えば光流(optical flow)やステレオ不一致(stereo disparities)の推定——は、密な対応マッチング問題として定式化できる。こうしたタスクを実現する代表的な手法は、コストボリューム(cost volume)と呼ばれる、2次元画像のすべての画素とその2次元探索窓内における潜在的な対応画素間の一致コストを格納する4次元テンソルを用いる。最先端(SOTA)の光流・ステレオ推定用ディープネットワークも、内部層としてこうした体積表現(volumetric representation)を活用している。しかし、このような層は大規模なメモリと計算資源を必要とし、実用上は扱いにくいという課題がある。その結果、SOTAネットワークは体積処理を制限するための多様なヒューリスティクスを導入しているが、これにより精度の限界や過学習が生じる傾向にある。本研究では、体積層の使用を著しく簡素化する3つのシンプルな改良を提案する。第一に、効率的に広い受容 field を捉える体積エンコーダ・デコーダアーキテクチャを導入する。第二に、画素間の類似性を多次元的に表現するマルチチャネルコストボリュームを採用する。第三に、分離可能な体積フィルタリング(separable volumetric filtering)を用いることで、計算量とパラメータ数を大幅に削減しつつ、精度を維持する。これらの革新により、標準ベンチマーク上でSOTAを大幅に上回る精度を達成するとともに、実装・運用の容易さも大幅に向上した。訓練の収束が10倍少ないイテレーションで達成可能であり、何より重要なのは、我々のネットワークが対応タスク間で一般化可能である点である。動的検索窓の適応により、光流用ネットワークをステレオ処理に、逆にステレオ用ネットワークを光流処理に即座に再利用可能であり、さらに必要に応じて検索窓サイズを自動拡張するアダプティブネットワークの実装にも応用可能である。