11日前

Cityscapes-3Dにおける2D-3D連合マルチタスク学習:3D検出、セグメンテーション、深度推定

Hanrong Ye, Dan Xu
Cityscapes-3Dにおける2D-3D連合マルチタスク学習:3D検出、セグメンテーション、深度推定
要約

本報告は、Cityscapes-3Dを基盤とする新たな2次元・3次元統合型マルチタスク学習ベンチマークを用いたTaskPrompterの実装を詳細に記述する補足文書である。TaskPrompterは、従来のアプローチが異なるネットワークモジュールに分離して扱っていた、(i) タスク汎用表現、(ii) タスク固有表現、(iii) タスク間相互作用の学習を統合する画期的なマルチタスクプロンプティングフレームワークを提案している。この統合的アプローチにより、細部にわたる構造設計の経験的試行が必要とされることが軽減されるとともに、モデル全体の能力が同時に3つの学習目標を最適化する方向に集中できるため、マルチタスクネットワークの表現学習能力が顕著に向上する。さらに、TaskPrompterはCityscapes-3Dデータセットに基づく新しいマルチタスクベンチマークを導入し、マルチタスクモデルが単眼3次元車両検出、セマンティックセグメンテーション、および単眼深度推定の同時予測を実行することを課している。これらのタスクは、特に自動運転システムの開発において、視覚シーンに対する統合的2次元・3次元理解を実現するために不可欠である。この困難なベンチマーク上で、本研究のマルチタスクモデルは単タスクの最先端手法と比較しても優れた性能を示し、特に3次元検出および深度推定タスクにおいて、新たな最先端(SOTA)の結果を達成した。

Cityscapes-3Dにおける2D-3D連合マルチタスク学習:3D検出、セグメンテーション、深度推定 | 最新論文 | HyperAI超神経