2ヶ月前

VSRD: インスタンス認識型ボリュームシルエットレンダリングによる弱教師あり3Dオブジェクト検出

Liu, Zihua ; Sakuma, Hiroki ; Okutomi, Masatoshi
VSRD: インスタンス認識型ボリュームシルエットレンダリングによる弱教師あり3Dオブジェクト検出
要約

単眼3D物体検出は、単眼深度推定の本質的に解釈が難しい性質により、3Dシーン理解において大きな課題を呈しています。既存の手法は、通常LiDAR点群から高コストかつ労力のかかるアノテーションによって得られる豊富な3Dラベルを使用した教師あり学習に大きく依存しています。この問題に対処するため、我々は3D監督なしで弱い2D監督のみを使用して3D物体検出器を訓練する新しい弱教師あり3D物体検出フレームワークであるVSRD(Volumetric Silhouette Rendering for Detection)を提案します。VSRDは、多視点3D自動ラベリングと、その自動ラベリング段階で生成された疑似ラベルを使用した単眼3D物体検出器のその後の訓練から構成されています。自動ラベリング段階では、各インスタンスの表面を符号付き距離場(SDF)として表現し、提案するインスタンス認識ボリュメトリックシルエットレンダリングを通じてそのシルエットをインスタンスマスクとしてレンダリングします。レンダリングを通じて直接3Dバウンディングボックスを最適化するために、各インスタンスのSDFをキューブイドのSDFと、キューブイドからの残差を表す残差距離場(RDF: Residual Distance Field)に分解します。この機構により、レンダリングされたインスタンスマスクと真値インスタンスマスクとの比較によって3Dバウンディングボックスをエンドツーエンドで最適化することが可能となります。最適化された3Dバウンディングボックスは、3D物体検出の効果的な訓練データとして機能します。我々はKITTI-360データセット上で広範な実験を行い、提案手法が既存の弱教師あり3D物体検出方法よりも優れていることを示しました。コードは https://github.com/skmhrk1209/VSRD で公開されています。

VSRD: インスタンス認識型ボリュームシルエットレンダリングによる弱教師あり3Dオブジェクト検出 | 最新論文 | HyperAI超神経