
要約
立体カメラを用いた3次元物体検出は、コンピュータビジョンにおいて重要な問題であり、LiDAR(ライダー)を搭載しない低コストの自律移動ロボットにとって特に重要です。現在、最も高性能なステレオ3D物体検出フレームワークの多くは、視差推定から得られる高密度深度再構成に基づいており、これにより計算量が非常に大きくなっています。実世界でのビジュアル検出システムの展開を可能にするため、我々は二眼画像を使用した物体検出に一歩戻り、2D画像ベースの検出フレームワークから洞察を得て、ステレオ特徴を強化することを目指します。我々はリアルタイムの一段階2D/3D物体検出器からの知識と推論構造を取り入れ、軽量なステレオマッチングモジュールを導入しました。提案するYOLOStereo3Dフレームワークは単一のGPUで訓練され、10fps以上の速度で動作します。LiDARデータを使用せずに、最先端のステレオ3D検出フレームワークと同等の性能を示しています。コードはhttps://github.com/Owen-Liuyuxuan/visualDet3D で公開されます。