HyperAIHyperAI

Command Palette

Search for a command to run...

視覚中心型マルチモーダル専門知識を活用した3Dオブジェクト検出

Linyan Huang Zhiqi Li Chonghao Sima Wenhai Wang Jingdong Wang Yu Qiao Hongyang Li

概要

現在の研究は、LiDARまたはマルチモーダルベースのモデル(専門家)から得られる知識を転移することで、カメラのみを用いる3Dオブジェクト検出器(学習者)の精度を向上させることに主眼を置いている。しかし、LiDAR特徴とカメラ特徴の間にあるドメインギャップに加え、時系列融合における本質的な不整合性が、学習者向けの知識蒸留による性能向上を著しく制限している。この課題に鑑み、単モーダル蒸留の成功を踏まえ、カメラ特徴に主に依拠しつつも、マルチモーダルモデルと同等の性能を達成できる学習者に適した専門家モデルの構築が望まれる。この目的の下、本研究では、カメラのみを用いる学習者モデルの性能を向上させるためのフレームワークVCDを提案する。本フレームワークは、学習者に配慮したマルチモーダル専門家モデルと、時系列融合に適した知識蒸留の監視機構を含む。マルチモーダル専門家モデルVCD-Eは、カメラのみの学習者と同一の構造を採用することで特徴の不一致を軽減し、LiDAR入力を深度事前知識として活用して3Dシーンを再構築することで、他の異種マルチモーダル専門家と同等の性能を達成している。さらに、各オブジェクトの運動のずれを個別に補正するための細粒度な軌道ベースの蒸留モジュールを導入した。これらの改善により、カメラのみを用いる学習者モデルVCD-Aは、nuScenesデータセットにおいて63.1%のNDSスコアを達成し、新たな最先端性能を樹立した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています