11日前

ImVoxelNet:単眼およびマルチビュー汎用3Dオブジェクト検出のための画像からボクセルへの投影

Danila Rukhovich, Anna Vorontsova, Anton Konushin
ImVoxelNet:単眼およびマルチビュー汎用3Dオブジェクト検出のための画像からボクセルへの投影
要約

本稿では、マルチビューRGB画像を用いた3Dオブジェクト検出をエンドツーエンド最適化問題として定式化するタスクを提案する。この問題に対処するために、単眼またはマルチビューRGB画像に基づく、完全畳み込み型の新規3Dオブジェクト検出手法であるImVoxelNetを提案する。マルチビュー入力における単眼画像の枚数は、学習および推論の過程で変動可能であり、実際には各マルチビュー入力ごとに異なる枚数を取ることも可能である。ImVoxelNetは屋内および屋外シーンの両方を効果的に処理できることから、汎用性に優れている。具体的には、単眼入力に対応するKITTIベンチマークおよびマルチビュー入力に対応するnuScenesベンチマークにおいて、RGB画像を入力とするすべての手法の中で、車両検出性能において最先端の結果を達成している。さらに、SUN RGB-Dデータセットにおいても、従来のRGBベースの3Dオブジェクト検出手法を上回っている。また、ScanNetデータセットにおいては、マルチビュー3Dオブジェクト検出の新しいベンチマークを設定した。本研究のソースコードおよび学習済みモデルは、https://github.com/saic-vul/imvoxelnet にて公開されている。

ImVoxelNet:単眼およびマルチビュー汎用3Dオブジェクト検出のための画像からボクセルへの投影 | 最新論文 | HyperAI超神経