HyperAIHyperAI

Command Palette

Search for a command to run...

ImVoxelNet:単眼およびマルチビュー汎用3Dオブジェクト検出のための画像からボクセルへの投影

Danila Rukhovich Anna Vorontsova Anton Konushin

概要

本稿では、マルチビューRGB画像を用いた3Dオブジェクト検出をエンドツーエンド最適化問題として定式化するタスクを提案する。この問題に対処するために、単眼またはマルチビューRGB画像に基づく、完全畳み込み型の新規3Dオブジェクト検出手法であるImVoxelNetを提案する。マルチビュー入力における単眼画像の枚数は、学習および推論の過程で変動可能であり、実際には各マルチビュー入力ごとに異なる枚数を取ることも可能である。ImVoxelNetは屋内および屋外シーンの両方を効果的に処理できることから、汎用性に優れている。具体的には、単眼入力に対応するKITTIベンチマークおよびマルチビュー入力に対応するnuScenesベンチマークにおいて、RGB画像を入力とするすべての手法の中で、車両検出性能において最先端の結果を達成している。さらに、SUN RGB-Dデータセットにおいても、従来のRGBベースの3Dオブジェクト検出手法を上回っている。また、ScanNetデータセットにおいては、マルチビュー3Dオブジェクト検出の新しいベンチマークを設定した。本研究のソースコードおよび学習済みモデルは、https://github.com/saic-vul/imvoxelnet にて公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています