
要約
モノクロカメラ環境下で教師なしの条件下において、複数の動的物体の6自由度(6-DoF)運動、エゴモーション、深度をエンドツーエンドで統合的に学習するフレームワークを提案する。本研究の技術的貢献は以下の3点に集約される。第一に、各剛体物体の個別運動をモデル化する際の逆投影(inverse projection)と前向投影(forward projection)の本質的な違いに着目し、ニューラル前向投影モジュールを用いた幾何学的に正確な投影パイプラインを提案する。第二に、背景領域および物体領域のすべてに対して包括的な自己教師信号を課す、統一的なインスタンス認識型の光度的・幾何学的整合性損失関数を設計する。第三に、任意の市販のインスタンスセグメンテーションモデルおよびオプティカルフローモデルを用いて、汎用的な自動アノテーションスキームを導入し、動画インスタンスセグメンテーションマップを生成する。このマップは、本研究の学習パイプラインの入力として利用される。提案する各要素は、詳細なアブレーションスタディにより検証されている。KITTIおよびCityscapesデータセットを用いた広範な実験により、本フレームワークが最先端の深度推定および運動推定手法を上回ることを示した。本研究のコード、データセット、モデルは、https://github.com/SeokjuLee/Insta-DM にて公開されている。