2ヶ月前
UniOcc: 三次元占有予測を視覚中心に統合する幾何学的および意味的なレンダリング
Mingjie Pan; Li Liu; Jiaming Liu; Peixiang Huang; Longlong Wang; Shanghang Zhang; Shaoqing Xu; Zhiyi Lai; Kuiyuan Yang

要約
本技術報告では、CVPR 2023 の nuScenes Open Dataset Challenge の Vision-Centric 3D 占有予測トラック向けに開発したソリューション「UniOCC」について紹介します。既存の占有予測手法は主に、3D占有ラベルを使用して3次元ボリューム空間上の射影特徴を最適化することに焦点を当てています。しかし、これらのラベルの生成プロセスは複雑かつ高コスト(3Dセマンティックアノテーションに依存)であり、ボクセル解像度の制限により細かい空間セマンティクスを提供することができません。この制約に対処するために、我々は新しい統合占有(UniOcc)予測手法を提案します。この手法では、空間幾何学的な制約を明示的に課し、体積線描画を通じて細かいセマンティック監督を補完することでモデル性能を大幅に向上させます。さらに、3D占有のアノテーションが労力が必要な作業であることを考慮し、未ラベリングデータを使用して予測精度を向上させる深度認識教師-生徒(Depth-aware Teacher Student, DTS)フレームワークも導入しました。当社のソリューションは単一モデルで公式リーダーボードにおいて51.27%のmIoU(平均交差率)を達成し、このチャレンジで3位となりました。