2ヶ月前
PWOC-3D: 深層遮蔽認識を備えたエンドツーエンドのシーンフロー推定
Rohan Saxena; René Schuster; Oliver Wasenmüller; Didier Stricker

要約
最近数年、畳み込みニューラルネットワーク(CNN)は、光学フローやステレオマッチングなどの密度推定問題を含む多くのコンピュータビジョンタスクにおいて、その成功が増していることが示されています。しかし、これらのタスクの同時予測であるシーンフローは、従来、原始的な仮定に基づく遅い古典的方法で取り組まれており、汎化能力に欠けていました。本論文で提示される研究では、PWOC-3DというコンパクトなCNNアーキテクチャを提案し、ステレオ画像シーケンスからエンドツーエンドの教師あり設定でシーンフローを予測することで、これらの欠点を効率的に(速度と精度の面で)克服しています。また、大規模な動きと遮蔽はシーンフロー推定におけるよく知られた問題です。PWOC-3Dはこれらの課題を明示的にモデル化するための専門的な設計決定を採用しています。この観点から、我々はラベル付き遮蔽データなしで学習された画像からの遮蔽予測を行う新しい自己教師あり戦略を提案します。このような構造を活用することで、当社のネットワークはKITTIベンチマークおよび困難なFlyingThings3Dデータセットにおいて競争力のある結果を達成しています。特にKITTIにおいて、PWOC-3Dはトップパフォーマンスを持つ手法に比べて48倍少ないパラメータ数でエンドツーエンドの深層学習手法の中で2位の成績となっています。