
要約
最近、スパース3D畳み込みは3Dオブジェクト検出の分野を変革している。投票ベースの手法と同等の性能を発揮しつつ、メモリ効率が高く、大規模なシーンへのスケーラビリティにも優れている。しかし、さらなる改善の余地は依然として存在する。実践志向のアプローチを意識的に採用し、こうした手法の性能を詳細に分析することで、その弱点を特定した。発見された問題を一つずつ修正する形で改良を加えた結果、エンド・トゥ・エンドで学習可能な高速な完全畳み込み型3Dオブジェクト検出モデル「TR3D」が完成した。このモデルは、標準ベンチマークであるScanNet v2、SUN RGB-D、S3DISにおいて、最先端の性能を達成している。さらに、点群データとRGB入力を両方活用するため、2Dと3D特徴量の早期融合を導入した。本研究で提案する融合モジュールを用いて、従来の3Dオブジェクト検出手法をマルチモーダル化し、性能の顕著な向上を実証した。早期特徴融合を導入したモデル(TR3D+FF)は、SUN RGB-Dデータセットにおいて、既存の3Dオブジェクト検出手法を上回る性能を示した。総合的に見て、TR3DおよびTR3D+FFの両モデルは、高い精度に加え、軽量性、メモリ効率の良さ、高速性を兼ね備えており、リアルタイム3Dオブジェクト検出への道における新たなマイルストーンを刻んだと言える。コードはGitHubにて公開されている:https://github.com/SamsungLabs/tr3d。