2ヶ月前

Frustum VoxNet を用いた RGB-D または深度画像からの 3D 物体検出

Xiaoke Shen; Ioannis Stamos

要約

最近、RGB画像や3D画像から物体分類と検出システムが多数開発されています。本研究では、RGB-Dまたは深度のみのポイントクラウドから3D物体を検出する新しいシステムについて説明します。当該システムはまず、2D（RGBまたは深度から構築された疑似RGB）で物体を検出します。次に、これらの2D検出が定義する3Dフロンステム内で3D物体を検出します。これは、フロンステム全体を使用せず、その一部をボクセル化することによって達成されます（フロンステムは非常に大きい場合があるため）。当該システムの主な新規性は、どの部分（3D提案）をボクセル化するかを決定することにあります。これにより、興味のある物体の周囲で高解像度表現を提供することが可能になります。また、当該システムのメモリ要件を低減することができます。これらの3D提案は効率的なResNetベースの3D完全畳み込みネットワーク（FCN）に供給されます。私たちの3D検出システムは高速であり、ロボットプラットフォームに統合することができます。PointNetなどのボクセル化を行わないシステムと比較して、データセットのサブサンプリングを行う必要がありません。さらに、当該システムの効率性を向上させるパイプラインアプローチも導入しました。SUN RGB-Dデータセットでの結果は、小さなネットワークに基づく私たちのシステムが秒間20フレームを処理できることを示しており、最先端技術と同等の検出結果を得つつ2倍の速度向上を達成しています。