
要約
シーンフローの問題、すなわち、ステレオまたはRGB-D動画フレームのペアが与えられたときに、ピクセル単位の3次元運動を推定するという課題に取り組みます。本研究では、シーンフロー向けの新たな深層学習アーキテクチャ「RAFT-3D」を提案します。RAFT-3Dは、光流(optical flow)の推定に用いられるRAFTモデルを基盤としていますが、2次元運動ではなく、ピクセル単位のSE3(特殊ユークリッド群)運動の密な場を反復的に更新する点が特徴です。RAFT-3Dの主な革新点として、剛体運動埋め込み(rigid-motion embeddings)を導入しました。これは、ピクセルを剛体物体として柔軟にグループ化する表現を可能にするものです。この剛体運動埋め込みの根幹を成すのが、埋め込みの幾何学的整合性を強制する微分可能層「Dense-SE3」です。実験の結果、RAFT-3Dは最先端の性能を達成しました。FlyingThings3Dデータセットにおける2ビュー評価では、従来の最高精度(d < 0.05)を34.3%から83.7%まで大幅に向上させました。KITTIデータセットにおいても、オブジェクトインスタンスのラベル情報を利用せずに、誤差5.77を達成し、従来の最良手法(6.31)を上回りました。コードはGitHubにて公開されています:https://github.com/princeton-vl/RAFT-3D。