LiDARを用いたパノプティックセグメンテーション:ダイナミックシフトネットワークによる手法

自律走行技術の急速な進展に伴い、センシングシステムに包括的な3D認識能力を備えることがますます重要になっている。しかし、従来の研究は、LiDARセンサからのデータを用いて、物体(例:自動車や歩行者)またはシーン(例:木や建物)のいずれか一方を解析することに焦点を当てていた。本研究では、LiDARを用いたパンスペクト的セグメンテーション(LiDAR-based panoptic segmentation)という新たな課題に取り組む。この課題は、物体とシーンの両方を統一的な枠組みで解析することを目的としている。この困難な新課題に対する初期の取り組みの一つとして、本研究では点群領域における効果的なパンスペクト的セグメンテーションフレームワークとして、Dynamic Shifting Network(DS-Net)を提案する。特に、DS-Netには以下の3つの優れた特徴がある。1)強力なバックボーン設計。DS-Netは、LiDAR点群に特化して設計されたシリンダ型畳み込み(cylinder convolution)を採用しており、抽出された特徴は、下位から上位へとクラスタリングを行うボトムアップスタイルのインスタンス分岐と、セマンティック分岐の両方で共有される。2)複雑な点群分布に対するダイナミックシフト。BFSやDBSCANといった一般的に用いられるクラスタリング手法は、非均一な点群分布や多様なインスタンスサイズを有する自律走行シーンに対応できないことを観察した。そこで、異なるインスタンスに対してリアルタイムでカーネル関数を適応可能な効率的な学習可能なクラスタリングモジュール「ダイナミックシフト」を提案する。3)コンセンサス駆動型融合。最後に、セマンティック予測とインスタンス予測の間に生じる不一致に対処するため、コンセンサス駆動型融合を導入する。LiDARベースのパンスペクト的セグメンテーションの性能を包括的に評価するため、大規模な自律走行LiDARデータセットであるSemanticKITTIとnuScenesからベンチマークを構築・整備した。広範な実験により、提案するDS-Netが現在の最先端手法を上回る高い精度を達成することが示された。特に、SemanticKITTIの公開リーダーボードにおいて1位を獲得し、PQ指標で2位を2.6%上回る成果を達成した。