16日前
TransFusion:Transformerを用いた3Dオブジェクト検出におけるロバストなLiDAR-カメラ融合
Xuyang Bai, Zeyu Hu, Xinge Zhu, Qingqiu Huang, Yilun Chen, Hongbo Fu, Chiew-Lan Tai

要約
自動運転における3次元物体検出において、LiDARとカメラは重要なセンサーである。この分野におけるセンサーフュージョンの普及が進む一方で、劣悪な画像条件(例:照明不良やセンサーの誤調整)に対するロバスト性についてはまだ十分に検討されていない。既存のフュージョン手法は、校正行列によって定義されるLiDAR点と画像ピクセルの硬い対応関係に起因して、こうした条件下で容易に性能が低下する傾向にある。本研究では、劣悪な画像条件に対応可能なロバストなLiDAR-カメラフュージョン手法として、ソフトアソシエーション機構を導入した「TransFusion」を提案する。具体的には、畳み込みベースのバックボーンと、Transformerデコーダに基づく検出ヘッドから構成される。デコーダの第一層は、スパースなオブジェクトクエリを用いてLiDAR点群から初期のバウンディングボックスを予測し、第二層では、空間的および文脈的な関係を活用してオブジェクトクエリと有用な画像特徴を適応的に融合する。Transformerのアテンション機構により、モデルは画像からどの情報を、どこから取り込むべきかを適応的に判断可能となり、ロバストかつ効果的なフュージョン戦略を実現する。さらに、点群では検出が困難なオブジェクトに対応するため、画像をガイドとするクエリ初期化戦略を設計した。TransFusionは大規模データセットにおいて最先端の性能を達成しており、劣化した画像品質や校正誤差に対するロバスト性を広範な実験により検証した。また、提案手法を3次元トラッキングタスクへ拡張し、nuScenesトラッキングリーダーボードで1位を獲得したことで、その有効性および汎化能力を示した。