HyperAIHyperAI

Command Palette

Search for a command to run...

歩行者検出と多モーダル学習の融合:ジェネラリストモデルとベンチマークデータセット

Yi Zhang Wang Zeng Sheng Jin Chen Qian Ping Luo Wentao Liu

概要

近年、異なるセンサモダリティ(例:RGB、赤外線、深度、LiDAR、イベント)の利点を活用した歩行者検出への研究注目が高まっています。しかし、多様なセンサモダリティを効果的に処理できる統一的な汎用モデルの設計は依然として課題となっています。本論文では、マルチモーダル感知向けの新しい汎用モデルであるMMPedestronを紹介します。従来の専門モデルが特定の1つまたは2つのモダリティ入力のみを処理するのに対し、MMPedestronは複数のモーダル入力とその動的な組み合わせを処理することができます。提案手法は、モダリティ表現と融合のための統一エンコーダと歩行者検出用の汎用ヘッドから構成されています。さらに、適応型マルチモーダル特徴量融合のために2つの追加学習トークン(MAAおよびMAF)を導入しています。また、MMPDデータセットという初めての大規模ベンチマークを構築しました。このベンチマークは既存の公開データセットと新規収集されたEventPedデータセットを含んでおり、RGB、赤外線、深度、LiDAR、イベントデータなど幅広いセンサモダリティをカバーしています。マルチモーダル共同訓練により、当社のモデルは特定センサモダリティ向けに最適化された最先端モデルを超える多くの歩行者検出ベンチマークで最先端の性能を達成しました。例えば、COCO-Personsで71.1 AP(平均精度)、LLVIPで72.6 AP(平均精度)を達成しています。特にCrowdHumanにおいては30倍少ないパラメータでInternImage-Hモデルと同等の性能を達成しており、その有効性が示されています。コードとデータはhttps://github.com/BubblyYi/MMPedestron から入手可能です。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています