
要約
LiDARベースの検出器や実際のLiDAR点群データを用いて単眼3D検出をガイドするアプローチは、Pseudo-LiDAR手法などを通じて顕著な性能向上をもたらしている。しかし、従来の手法は通常、エンドツーエンドではない学習戦略を採用しており、LiDAR情報の活用が不十分である。その結果、LiDARデータが有する豊富な潜在的な情報が十分に活かされていない。本論文では、特徴量および応答の両面において、LiDARモダリティから画像モダリティへと知識を効率的かつ直接的に転移するための、クロスモダリティ知識蒸留(Cross-Modality Knowledge Distillation: CMKD)ネットワークを提案する。さらに、大規模なラベルなしデータからの知識蒸留を活用することで、CMKDを半教師付き学習フレームワークとして拡張し、性能を顕著に向上させた。提出時点において、CMKDはKITTIテストセットおよびWaymoバリデーションセットの両方で、既存の最先端手法と比較して大幅な性能向上を達成し、単眼3D検出器の中で1位を獲得している。