11日前

ImGeoNet:マルチビュー3Dオブジェクト検出のための画像誘導型幾何形状認識型ボクセル表現

Tao Tu, Shun-Po Chuang, Yu-Lun Liu, Cheng Sun, Ke Zhang, Donna Roy, Cheng-Hao Kuo, Min Sun
ImGeoNet:マルチビュー3Dオブジェクト検出のための画像誘導型幾何形状認識型ボクセル表現
要約

我々は、複数視点画像を基にした3Dオブジェクト検出フレームワーク「ImGeoNet」を提案する。本手法は、画像から誘導される幾何情報に敏感なボクセル表現を用いて3D空間をモデル化する。従来の手法が幾何情報を考慮せずに2D特徴量を3Dボクセルに集約するのに対し、ImGeoNetは複数視点画像から幾何情報を学習的に誘導することで、空領域のボクセルに起因する混同を軽減する。推論フェーズでは、複数視点からの画像のみを入力として用いればよく、計算リソースの節約が可能である。さらに、強力な事前学習済み2D特徴抽出器を本表現と組み合わせることで、より高いロバスト性を実現できる。ImGeoNetの有効性を検証するため、ARKitScenes、ScanNetV2、ScanNet200の3つの屋内データセットにおいて、定量的および定性的な実験を実施した。その結果、すべてのデータセットにおいて、現在の最先端手法であるImVoxelNetを上回る検出精度を達成した。また、ImGeoNetは非常に高いデータ効率を示し、ImVoxelNetと同等の性能を100枚のビューではなく、わずか40枚のビューで達成している。さらに、本研究の結果から、提案する画像誘導型幾何情報認識表現により、画像ベースの手法が、点群が疎でノイズが多い状況(例:ARKitScenes)や、多様なオブジェクトクラス、特に小物体を含む状況(例:ScanNet200)といった実用的シナリオにおいて、従来の画期的な点群ベース手法であるVoteNetを上回る検出精度を達成できることが示された。

ImGeoNet:マルチビュー3Dオブジェクト検出のための画像誘導型幾何形状認識型ボクセル表現 | 最新論文 | HyperAI超神経