3ヶ月前

UniSeg:包括マルチモーダルLiDARセグメンテーションネットワークとOpenPCSegコードベースの統合型

Youquan Liu, Runnan Chen, Xin Li, Lingdong Kong, Yuchen Yang, Zhaoyang Xia, Yeqi Bai, Xinge Zhu, Yuexin Ma, Yikang Li, Yu Qiao, Yuenan Hou
UniSeg:包括マルチモーダルLiDARセグメンテーションネットワークとOpenPCSegコードベースの統合型
要約

ポイント、ボクセル、レンジの3つのビューは、点群の代表的な表現形式である。これらはすべて正確な3D測定を可能にするが、色やテクスチャ情報は欠落している。RGB画像はこれらの点群ビューにとって自然な補完であり、それらの包括的な情報を十分に活用することで、より堅牢な認識が可能となる。本論文では、RGB画像と点群の3つのビュー(ポイント、ボクセル、レンジ)の情報を統合的に活用し、同時にセマンティックセグメンテーションとパノプティックセグメンテーションを実現する統一型マルチモーダルLiDARセグメンテーションネットワーク「UniSeg」を提案する。具体的には、まずボクセルビューとレンジビューの特徴量をRGB画像の特徴量と自動的に融合する「学習可能なクロスモーダル連関モジュール(LMA)」を設計し、画像に豊富に含まれる意味情報を利用しつつ、キャリブレーション誤差に対して高いロバスト性を実現する。次に、強化されたボクセルビューおよびレンジビューの特徴量をポイント空間に変換し、さらに「学習可能なクロスビュー連関モジュール(LVA)」により、点群の3つのビュー特徴量を適応的に統合する。特に、UniSegはSemantiKITTI、nuScenes、Waymo Open Dataset(WOD)の3つの公的ベンチマークにおいて優れた性能を達成し、nuScenesのLiDARセマンティックセグメンテーションチャレンジおよびSemantiKITTIのパノプティックセグメンテーションチャレンジの2つの課題で1位を獲得した。さらに、本研究では、最も規模が大きく、最も包括的な屋外LiDARセグメンテーション用コードベース「OpenPCSeg」を構築した。このコードベースには、屋外LiDARセグメンテーションで一般的に用いられる多くの主要なアルゴリズムが収録されており、再現可能な実装を提供する。OpenPCSegコードベースは、https://github.com/PJLab-ADG/PCSeg にて公開される予定である。