
要約
自律システムが現実世界を信頼性高くナビゲートするためには、シーン理解が不可欠である。3D LiDARスキャンにおけるパノプティックセグメンテーションは、各3Dポイントに対して意味的クラスを予測することで、車両の環境を意味的に記述するとともに、異なるインスタンスIDを用いて個々のインスタンスを識別することができる。周囲の動的状態を記述するためには、4Dパノプティックセグメンテーションが、時間的に一貫したインスタンスIDを用いて、スキャンシーケンス全体にわたりインスタンスを一貫して識別する情報を拡張する。従来の4Dパノプティックセグメンテーション手法は、後処理ステップに依存しており、多くの場合、エンドツーエンドで学習可能ではない。本論文では、クラスタリングや予測結果間の関連付けといった後処理を一切不要とし、時間的に一貫した非重複マスク、それらの意味的クラス、およびインスタンスIDをエンドツーエンドで学習可能な形で直接予測する新しいアプローチを提案する。我々は、前回のスキャンでデコードされたインスタンスを再利用する仕組みを導入することで、マスクベースの3Dパノプティックセグメンテーションモデルを4Dに拡張した。このアプローチにより、各クエリが時間経過にわたって同一のインスタンスをデコードし、そのインスタンスIDを保持することで、追跡が暗黙的に実現される。これにより、セグメンテーションと追跡を統合的に最適化し、4Dパノプティックセグメンテーションに対して直接的な教師信号を提供することが可能となる。