
要約
インフラストラクチャ上に設置されたカメラによる有効なBEV(鳥瞰図視点)オブジェクト検出は、交通シーンの理解および車両からインフラストラクチャ(V2I)への協調的認識を著しく向上させる。しかし、インフラに設置されたカメラは多様な姿勢を取るため、従来のBEV検出手法は正確なキャリブレーションに依存しており、風や雪などの自然要因による不確実性のため、実用的な応用においては困難である。本論文では、キャリブレーションパラメータや追加の深度監視を必要とせず、BEV表現に基づく3次元検出を実現する「キャリブレーションフリーBEV表現(CBR)ネットワーク」を提案する。具体的には、ボックス誘導型の前景監視のもとで、2つの多層パーセプトロンを用いて、視点からの特徴を前面視点と鳥瞰図視点に分離・変換する。その後、直交する視点間の特徴を類似度に基づいてマッチングし、前面視点特徴を用いてBEV特徴の強化を行うクロスビュー特徴統合モジュールを導入する。DAIR-V2Xデータセット上での実験結果から、CBRはカメラパラメータを一切使用せずに良好な性能を達成し、キャリブレーションノイズの影響を受けない自然な特性を有することが示された。今後、インフラストラクチャ認識における実用的課題に取り組む研究の基盤として、CBRが活用されることを期待する。