6ヶ月前

概要

自律走行における重要なタスクである3Dオブジェクト検出は、近年著しい進展を遂げている。しかし、深度推定性能が不十分なため、モノクロカメラを用いた3Dオブジェクト検出は依然として困難な課題である。既存の多くは、深度と各種幾何的要素（例えばボクセルボックスのサイズ、3Dオブジェクトの寸法、オブジェクトの姿勢など）との重要な関係を無視したまま、直接的にシーンの深度を回帰するアプローチを採用している。本論文では、射影モデリングを用いた幾何学的制約付き深度推定を導入することで、モノクロカメラによる3Dオブジェクト検出の性能向上を目指す。具体的には、モノクロ3Dオブジェクト検出ネットワーク内における2Dおよび3D深度予測の射影モデリングに基づく原理的な幾何学的公式を提案する。さらに、この公式を実装・統合することで、幾何学的知識を意識した深層表現学習を実現し、効果的な2Dと3D間の相互作用を可能にし、深度推定の精度を向上させる。また、2Dアノテーションと投影されたボックスとの顕著な不整合を解消するアプローチにより、提案する幾何学的公式に基づく堅牢な学習を実現する強力なベースラインを構築した。KITTIデータセットにおける実験結果から、追加データを一切使用せずに、最先端のモノクロベース手法の検出性能を、中程度のテスト設定において2.80%向上させることを確認した。モデルおよびコードは、https://github.com/YinminZhang/MonoGeo にて公開される予定である。

ソースPDF