Command Palette
Search for a command to run...
CubifAE-3D: 単眼カメラによる空間立方体分割を用いたオートエンコーダーに基づく3D物体検出
CubifAE-3D: 単眼カメラによる空間立方体分割を用いたオートエンコーダーに基づく3D物体検出
Shubham Shrivastava Punarjay Chakravarty
概要
単一のモノクロ画像を使用した3D物体検出の手法を紹介します。まず、合成データセットからRGB-to-Depthオートエンコーダ(AE)を事前学習します。このAEで学習された埋め込みは、その後、3D物体検出器(3DOD)CNNの訓練に使用され、AEのエンコーダがRGB画像から潜在的な埋め込みを生成した後、3D物体姿勢のパラメータを回帰します。我々は、シミュレーションデータから対となるRGBと深度画像を使用して一度だけAEを事前学習し、その後、実際のデータ(RGB画像と3D物体姿勢ラベル)のみを使用して3DODネットワークを訓練できることを示しています(密度のある深度情報は必要ありません)。3DODネットワークでは、カメラ周囲の3D空間を特定の方法で「立方体化」し、各立方体がN個の物体姿勢とそのクラスおよび信頼度値を予測するように設計されています。AEの事前学習とこのカメラ周囲の3D空間を立方体に分割する手法により、当手法はCubifAE-3Dという名前が付けられています。本研究では、自律走行車(AV)用途における単眼3D物体検出についてVirtual KITTI 2およびKITTIデータセットを使用して結果を示しています。