11日前
BEVDistill:マルチビュー3Dオブジェクト検出を 위한クロスモーダルBEVディスティルレーション
Zehui Chen, Zhenyu Li, Shiquan Zhang, Liangji Fang, Qinhong Jiang, Feng Zhao

要約
複数の画像ビューからの3Dオブジェクト検出は、視覚的シーン理解において基礎的かつ困難なタスクである。低コストかつ高効率であるため、マルチビュー3Dオブジェクト検出は有望な応用可能性を示している。しかし、深度情報の欠如により、透視ビューからの正確なオブジェクト検出は極めて困難である。現在のアプローチは、画像エンコーダーに重いバックボーンを採用する傾向にあり、実世界への展開には不向きである。画像とは異なり、LiDAR点群は空間的ヒントを優れた精度で提供するため、高精度な局所化が可能となる。本論文では、マルチビュー3Dオブジェクト検出にLiDARベースの検出器を組み込む可能性を検討する。深度予測ネットワークを直接学習するのではなく、画像とLiDARの特徴をBird-Eye-View(BEV)空間に統一し、教師-生徒フレームワークに基づいて非同質な表現間で知識を適応的に転送する。これにより、本研究ではマルチビュー3Dオブジェクト検出を対象としたクロスモーダルBEV知識蒸留(KD)フレームワークであるBEVDistillを提案する。広範な実験により、追加の推論コストを一切導入せずに、非常に競争力のあるベースラインであるBEVFormerに対して、現在のKDアプローチを上回る性能を実現することが示された。特に、本研究の最良モデルはnuScenesテストリーダーボードで59.4 NDSを達成し、様々な画像ベースの検出器と比較して新たなSOTA(最先端)を記録した。コードは https://github.com/zehuichen123/BEVDistill にて公開される予定である。