
要約
鳥瞰図(Bird's-eye-view: BEV)表現は、自動運転における道路配置推定や3次元物体検出などの複数のタスクを堅牢に学習するための手法として利用されています。しかし、現在の統一的な道路配置推定と3次元物体検出の方法は、学習データセットのクラス不均衡や多クラス学習を扱うことが稀で、必要なネットワークの総数を削減するのに十分ではありません。これらの制約を克服するために、我々はトランスフォーマー構造とCycleGAN学習フレームワークに着想を得た、道路配置推定と3次元物体検出のための統一モデルを提案します。提案されたモデルでは、データセットのクラス不均衡による性能低下をフォーカルロスと提案したデュアルサイクルロスを利用して対処します。さらに、様々な状況下での道路配置推定における多クラス学習の効果を研究するために、広範な学習シナリオを設定しました。提案モデルおよび学習スキームの有効性を確認するため、詳細なアブレーションスタディと比較実験を行いました。実験結果は我々のモデルの有効性を証明しており、道路配置推定および3次元物体検出タスクにおいて最先端の性能を達成しています。