11日前
M3DeTR:Transformersを用いたマルチ表現、マルチスケール、マルチ関係3Dオブジェクト検出
Tianrui Guan, Jun Wang, Shiyi Lan, Rohan Chandra, Zuxuan Wu, Larry Davis, Dinesh Manocha

要約
3次元物体検出のための新規アーキテクチャであるM3DeTRを提案する。本手法は、マルチスケール特徴ピラミッドに基づき、原始点群、ボクセル、ビードアイビュー(鳥瞰図)といった異なる点群表現と、異なる特徴スケールを統合する。M3DeTRは、Transformerを用いて、複数の点群表現と特徴スケールの統合に加え、点群間の相互関係を同時にモデル化する初めてのアプローチである。広範なアブレーション実験により、表現とスケールの融合、および関係性のモデリングがもたらす利点が明確に示された。本手法はKITTI 3D物体検出データセットおよびWaymo Open Datasetにおいて、最先端の性能を達成した。特に、Waymo Open Datasetにおいて、全クラスでベースライン比1.48%のmAP向上を実現した。また、車両および自転車乗りクラスにおいて、有名なKITTI 3D検出ベンチマークで1位を獲得し、単一フレームの点群入力条件下でWaymo Open Datasetでも1位を達成した。本研究のコードは以下のURLから公開されている:https://github.com/rayguan97/M3DETR。