2ヶ月前
LabelDistill: ラベル誘導型クロスモーダル知識蒸留法によるカメラベースの3D物体検出
Kim, Sanmin ; Kim, Youngseok ; Hwang, Sihwan ; Jeong, Hyeonjun ; Kum, Dongsuk

要約
最近のカメラベースの3D物体検出における進歩は、LiDAR 3D検出器との性能差を埋めるためにクロスモーダル知識蒸留を導入しています。LiDAR点群データに含まれる精密な幾何学的情報を利用することで、この技術が実現しています。しかし、既存のクロスモーダル知識蒸留手法は、遠隔または遮蔽された物体の測定値の曖昧性などのLiDAR固有の欠点を無視しがちであり、これらの欠点は画像検出器に転送されるべきではありません。これらのLiDAR教師モデルの欠点を軽減するために、我々は真値ラベルからアレアトリック不確実性(aleatoric uncertainty)を排除した特徴を利用する新しい手法を提案します。従来のラベルガイダンス手法とは異なり、教師モデルのヘッド部分の逆関数を近似し、効果的にラベル入力を特徴空間に埋め込む方法を取ります。このアプローチにより、LiDAR教師モデルからの追加的な正確なガイダンスが提供され、画像検出器の性能が向上します。さらに、我々は特徴分割という手法も導入します。これにより、教師モーダルからの知識が効果的に転送されつつ、学生モデルの独自性が保たれるため、両モーダルの潜在能力が最大限に引き出されます。実験結果では、我々のアプローチがベースラインモデルと比較してmAPおよびNDSでそれぞれ5.1ポイントと4.9ポイント改善することを示しており、その有効性が証明されています。コードは以下のURLで公開されています。https://github.com/sanmin0312/LabelDistill