位置ガイド付きポイントクラウド・パノプティックセグメンテーションTransformer

DEtection TRansformer(DETR)は、一括して学習可能なクエリを用いた統一的な視覚認識アプローチを導入し、新たなトレンドを生み出した。本研究では、この魅力的な枠組みをLiDARによるポイントクラウドセグメンテーションに適用し、シンプルながら効果的なベースラインを構築した。ただし、単純なアダプテーションでは妥当な結果が得られるものの、インスタンスセグメンテーション性能は従来の手法に比べて顕著に劣ることが明らかになった。詳細な分析により、スパースなポイントクラウドにおけるインスタンスは全体シーンに対して相対的に小さく、幾何学的特徴は類似しているものの、セグメンテーションに有用な特徴的な外観が欠如していることが判明した。これは画像領域では稀な特性である。3D空間におけるインスタンスは位置情報によってより顕著に特徴づけられる点に着目し、モデル設計においてその役割を強調した。これにより、ロバストな混合パラメータ化位置埋め込み(Mixed-parameterized Positional Embedding; MPE)を提案し、セグメンテーションプロセスをガイドする。このMPEはバックボーン特徴に組み込まれ、後続のマスク予測およびクエリ更新プロセスにおいて反復的に作用し、位置情報に敏感なセグメンテーション(Position-Aware Segmentation; PA-Seg)とマスク付きフォーカルアテンション(Masked Focal Attention; MFA)を実現した。これらの設計により、クエリが特定の領域に注目し、多様なインスタンスを識別する能力が強化された。本手法は「位置情報誘導型ポイントクラウドパンスペクティブセグメンテーション変換器(Position-guided Point cloud Panoptic segmentation transFormer; P3Former)」と命名され、SemanticKITTIおよびnuScenesベンチマークにおいて、それぞれ3.4%および1.2%のPQ(Panoptic Quality)向上を達成し、従来の最先端手法を上回った。ソースコードおよびモデルは、https://github.com/SmartBot-PJLab/P3Former にて公開されている。