6ヶ月前

概要

LiDARを用いた3Dポイントクラウド認識は、さまざまな応用分野で大きな成果を上げている。現在の大多数の手法は、LiDARポイントの分布特性を特別に考慮していないため、情報の断絶や受容fieldの制限という課題に直面しており、特に遠方の疎なポイントに対して顕著な問題が生じる。本研究では、LiDARポイントの不均一なスパース性分布に着目し、密な近接ポイントから疎な遠方ポイントへ直接情報を集約する新しいアーキテクチャであるSphereFormerを提案する。本手法では、空間を重複しない狭長な複数の窓に分割する「径方向ウィンドウ自己注意（radial window self-attention）」を設計することで、情報の断絶を克服し、受容fieldを滑らかかつ大幅に拡大する。このアプローチにより、疎な遠方ポイントの認識性能が顕著に向上する。さらに、狭長なウィンドウ構造に適応するため、細粒度な位置符号化を実現するための「指数分割（exponential splitting）」と、モデル表現能力を向上させるための「動的特徴選択（dynamic feature selection）」を提案する。注目すべきは、本手法がnuScenesおよびSemanticKITTIのセマンティックセグメンテーションベンチマークにおいて、それぞれ81.9%および74.8%のmIoUで1位を達成した点であり、nuScenesオブジェクト検出ベンチマークでもNDS 72.8%、mAP 68.5%で3位を獲得した。コードは以下のURLから公開されている：https://github.com/dvlab-research/SphereFormer.git。

ソースPDF