11日前
視覚中心型マルチモーダル専門知識を活用した3Dオブジェクト検出
Linyan Huang, Zhiqi Li, Chonghao Sima, Wenhai Wang, Jingdong Wang, Yu Qiao, Hongyang Li

要約
現在の研究は、LiDARまたはマルチモーダルベースのモデル(専門家)から得られる知識を転移することで、カメラのみを用いる3Dオブジェクト検出器(学習者)の精度を向上させることに主眼を置いている。しかし、LiDAR特徴とカメラ特徴の間にあるドメインギャップに加え、時系列融合における本質的な不整合性が、学習者向けの知識蒸留による性能向上を著しく制限している。この課題に鑑み、単モーダル蒸留の成功を踏まえ、カメラ特徴に主に依拠しつつも、マルチモーダルモデルと同等の性能を達成できる学習者に適した専門家モデルの構築が望まれる。この目的の下、本研究では、カメラのみを用いる学習者モデルの性能を向上させるためのフレームワークVCDを提案する。本フレームワークは、学習者に配慮したマルチモーダル専門家モデルと、時系列融合に適した知識蒸留の監視機構を含む。マルチモーダル専門家モデルVCD-Eは、カメラのみの学習者と同一の構造を採用することで特徴の不一致を軽減し、LiDAR入力を深度事前知識として活用して3Dシーンを再構築することで、他の異種マルチモーダル専門家と同等の性能を達成している。さらに、各オブジェクトの運動のずれを個別に補正するための細粒度な軌道ベースの蒸留モジュールを導入した。これらの改善により、カメラのみを用いる学習者モデルVCD-Aは、nuScenesデータセットにおいて63.1%のNDSスコアを達成し、新たな最先端性能を樹立した。