8ヶ月前

オブジェクト検出

マルチモーダル

コンピュータビジョン

マルチモーダル

コンピュータビジョン

Fang Qingyun Han Dapeng Wang Zhaokui

概要

マルチスペクトル画像のペアは、組み合わせた情報を提供し、オープンワールドでの物体検出アプリケーションをより信頼性高く堅牢にすることができます。本稿では、異なるモダリティを完全に活用するために、単純かつ効果的なクロスモダリティ特徴量融合手法である「クロスモダリティフュージョントランスフォーマー（CFT）」を提案します。従来のCNNベースの手法とは異なり、トランスフォーマー方式に基づいてネットワークが長距離依存関係を学習し、特徴抽出段階で全体的なコンテキスト情報を統合します。さらに重要なのは、トランスフォーマーの自己注意機構を利用して、ネットワークが自然に同一モダリティ内および異なるモダリティ間の融合を行い、RGBと熱赤外線領域間の潜在的な相互作用を堅牢に捉えることができることです。これにより、マルチスペクトル物体検出の性能が大幅に向上します。複数のデータセットに対する広範な実験と省略研究により、当手法が効果的であり最先端の検出性能を達成していることが示されています。当方のコードとモデルは https://github.com/DocF/multispectral-object-detection から入手可能です。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

オブジェクト検出

マルチモーダル

コンピュータビジョン

マルチモーダル

コンピュータビジョン

Fang Qingyun Han Dapeng Wang Zhaokui

概要

マルチスペクトル画像のペアは、組み合わせた情報を提供し、オープンワールドでの物体検出アプリケーションをより信頼性高く堅牢にすることができます。本稿では、異なるモダリティを完全に活用するために、単純かつ効果的なクロスモダリティ特徴量融合手法である「クロスモダリティフュージョントランスフォーマー（CFT）」を提案します。従来のCNNベースの手法とは異なり、トランスフォーマー方式に基づいてネットワークが長距離依存関係を学習し、特徴抽出段階で全体的なコンテキスト情報を統合します。さらに重要なのは、トランスフォーマーの自己注意機構を利用して、ネットワークが自然に同一モダリティ内および異なるモダリティ間の融合を行い、RGBと熱赤外線領域間の潜在的な相互作用を堅牢に捉えることができることです。これにより、マルチスペクトル物体検出の性能が大幅に向上します。複数のデータセットに対する広範な実験と省略研究により、当手法が効果的であり最先端の検出性能を達成していることが示されています。当方のコードとモデルは https://github.com/DocF/multispectral-object-detection から入手可能です。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています