8ヶ月前

コンピュータビジョン

3D マシンビジョン

セマンティックセグメンテーション

コンピュータビジョン

Yunpeng Zhang Zheng Zhu* Dalong Du

概要

自動運転の視覚ベースの認識は、バードアイビュー（BEV）表現から3次元意味占有へと変革を遂げています。BEV平面と比較して、3次元意味占有は垂直方向の構造情報をさらに提供します。本論文では、OccFormerという二重パス変換器ネットワークを提案し、3次元ボリュームの意味占有予測を効果的に処理します。OccFormerは、カメラ生成の3次元ボクセル特徴量に対して長距離、動的かつ効率的なエンコーディングを実現します。これは、水平面上での局所および全局所変換器パスウェイに重い3次元処理を分解することで得られます。占有デコーダについては、preserve-pooling（保有プーリング）とclass-guided sampling（クラスガイデッドサンプリング）を提案することで、Mask2Formerを3次元意味占有に適応させました。これらの手法により、疎さとクラスの不均衡が著しく緩和されます。実験結果は、SemanticKITTIデータセットにおける意味的なシーン補完とnuScenesデータセットにおけるLiDAR意味セグメンテーションにおいて、OccFormerが既存の手法を大幅に上回ることを示しています。コードは\url{https://github.com/zhangyp15/OccFormer}で入手可能です。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

コンピュータビジョン

3D マシンビジョン

セマンティックセグメンテーション

コンピュータビジョン

Yunpeng Zhang Zheng Zhu* Dalong Du

概要

自動運転の視覚ベースの認識は、バードアイビュー（BEV）表現から3次元意味占有へと変革を遂げています。BEV平面と比較して、3次元意味占有は垂直方向の構造情報をさらに提供します。本論文では、OccFormerという二重パス変換器ネットワークを提案し、3次元ボリュームの意味占有予測を効果的に処理します。OccFormerは、カメラ生成の3次元ボクセル特徴量に対して長距離、動的かつ効率的なエンコーディングを実現します。これは、水平面上での局所および全局所変換器パスウェイに重い3次元処理を分解することで得られます。占有デコーダについては、preserve-pooling（保有プーリング）とclass-guided sampling（クラスガイデッドサンプリング）を提案することで、Mask2Formerを3次元意味占有に適応させました。これらの手法により、疎さとクラスの不均衡が著しく緩和されます。実験結果は、SemanticKITTIデータセットにおける意味的なシーン補完とnuScenesデータセットにおけるLiDAR意味セグメンテーションにおいて、OccFormerが既存の手法を大幅に上回ることを示しています。コードは\url{https://github.com/zhangyp15/OccFormer}で入手可能です。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています