11日前
X3KD:マルチカメラ3Dオブジェクト検出におけるモダリティ、タスク、段階を跨ぐ知識蒸留
{Fatih Porikli, Senthil Yogamani, Venkatraman Narayanan, Behnaz Rezaei, Varun Ravi Kumar, Shubhankar Borse, Marvin Klingner}

要約
3次元物体検出(3DOD)における最近の進展により、LiDARベースのモデルは顕著な成果を達成している。一方、複数のカメラ画像に基づくサーカムビュー3DODモデルは、視点ビュー(PV)における特徴量を3Dワールド表現に変換する必要があるが、深度情報が欠落しているためこの変換が不確実であり、性能が劣っている。本論文では、異なるモダリティ、タスク、段階にわたる包括的な知識蒸留フレームワークであるX3KDを提案する。具体的には、PV特徴抽出段階でインスタンスセグメンテーション教師(X-IS)からクロストラスク知識蒸留を実施し、視点変換による曖昧な誤差逆伝播を回避しつつ、監視信号を提供する。視点変換後には、LiDARベースの3DOD教師に含まれる情報を活用して、クロスモーダル特徴蒸留(X-FD)と敵対的学習(X-AT)を適用し、複数カメラ特徴の3Dワールド表現を向上させる。さらに、予測段階においても同様に、クロスモーダル出力蒸留(X-OD)を用いて教師モデルから密な監視信号を提供する。本研究では、複数カメラ3DODの各段階における知識蒸留の広範なアブレーションを実施した。最終的なX3KDモデルは、nuScenesおよびWaymoデータセットにおいて、従来の最先端手法を上回る性能を達成し、さらにRADARベースの3DODにも汎化可能である。定性的な結果動画は、https://youtu.be/1do9DPFmr38 にて公開されている。