
要約
自動運転の視覚ベースの認識は、バードアイビュー(BEV)表現から3次元意味占有へと変革を遂げています。BEV平面と比較して、3次元意味占有は垂直方向の構造情報をさらに提供します。本論文では、OccFormerという二重パス変換器ネットワークを提案し、3次元ボリュームの意味占有予測を効果的に処理します。OccFormerは、カメラ生成の3次元ボクセル特徴量に対して長距離、動的かつ効率的なエンコーディングを実現します。これは、水平面上での局所および全局所変換器パスウェイに重い3次元処理を分解することで得られます。占有デコーダについては、preserve-pooling(保有プーリング)とclass-guided sampling(クラスガイデッドサンプリング)を提案することで、Mask2Formerを3次元意味占有に適応させました。これらの手法により、疎さとクラスの不均衡が著しく緩和されます。実験結果は、SemanticKITTIデータセットにおける意味的なシーン補完とnuScenesデータセットにおけるLiDAR意味セグメンテーションにおいて、OccFormerが既存の手法を大幅に上回ることを示しています。コードは\url{https://github.com/zhangyp15/OccFormer}で入手可能です。