HyperAIHyperAI

Command Palette

Search for a command to run...

OccFormer: 視覚ベースの3D意味占有予測のためのデュアルパスTransformer

Yunpeng Zhang Zheng Zhu* Dalong Du

概要

自動運転の視覚ベースの認識は、バードアイビュー(BEV)表現から3次元意味占有へと変革を遂げています。BEV平面と比較して、3次元意味占有は垂直方向の構造情報をさらに提供します。本論文では、OccFormerという二重パス変換器ネットワークを提案し、3次元ボリュームの意味占有予測を効果的に処理します。OccFormerは、カメラ生成の3次元ボクセル特徴量に対して長距離、動的かつ効率的なエンコーディングを実現します。これは、水平面上での局所および全局所変換器パスウェイに重い3次元処理を分解することで得られます。占有デコーダについては、preserve-pooling(保有プーリング)とclass-guided sampling(クラスガイデッドサンプリング)を提案することで、Mask2Formerを3次元意味占有に適応させました。これらの手法により、疎さとクラスの不均衡が著しく緩和されます。実験結果は、SemanticKITTIデータセットにおける意味的なシーン補完とnuScenesデータセットにおけるLiDAR意味セグメンテーションにおいて、OccFormerが既存の手法を大幅に上回ることを示しています。コードは\url{https://github.com/zhangyp15/OccFormer}で入手可能です


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています