8ヶ月前

コンピュータビジョン

オブジェクト検出

ビデオ理解

コンピュータビジョン

Cesare Davide Pace* Alessandro Marco De Nunzio Claudio De Stefano Francesco Fontanella Mario Molinara

概要

人間姿勢推定は、コンピュータビジョンにおける重要なタスクであり、画像や動画から人間の関節を検出および局所化することを目的としています。単一フレームの姿勢推定は大きな進歩を遂げていますが、複雑で連続的な動きの時間的動態を捉えることがしばしば困難です。これらの制限に対処するため、私たちはPoseidonという新しいマルチフレーム姿勢推定アーキテクチャを提案します。PoseidonはViTPoseモデルを拡張し、時間的情報を取り込むことで精度と堅牢性を向上させます。Poseidonの主要な革新点は以下の通りです：1. 関連性に基づいてフレームを動的に優先する適応的フレーム重み付け（Adaptive Frame Weighting: AFW）メカニズム；2. 細部の詳細と高レベルの意味論を両方捉えるために、異なるバックボーン層からの特徴量を集約する多尺度特徴融合（Multi-Scale Feature Fusion: MSFF）モジュール；3. 中心フレームと周辺フレーム間での効果的な情報交換を行い、モデルの時間的一貫性を向上させるクロスアテンションモジュール。提案されたアーキテクチャは複雑な動画シナリオでの性能向上に寄与し、実世界アプリケーションに適したスケーラビリティと計算効率も提供します。当手法はPoseTrack21およびPoseTrack18データセットにおいて最先端の性能を達成しており、それぞれmAPスコア88.3と87.8を記録し、既存の方法を超える結果を得ています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

コンピュータビジョン

オブジェクト検出

ビデオ理解

コンピュータビジョン

Cesare Davide Pace* Alessandro Marco De Nunzio Claudio De Stefano Francesco Fontanella Mario Molinara

概要

人間姿勢推定は、コンピュータビジョンにおける重要なタスクであり、画像や動画から人間の関節を検出および局所化することを目的としています。単一フレームの姿勢推定は大きな進歩を遂げていますが、複雑で連続的な動きの時間的動態を捉えることがしばしば困難です。これらの制限に対処するため、私たちはPoseidonという新しいマルチフレーム姿勢推定アーキテクチャを提案します。PoseidonはViTPoseモデルを拡張し、時間的情報を取り込むことで精度と堅牢性を向上させます。Poseidonの主要な革新点は以下の通りです：1. 関連性に基づいてフレームを動的に優先する適応的フレーム重み付け（Adaptive Frame Weighting: AFW）メカニズム；2. 細部の詳細と高レベルの意味論を両方捉えるために、異なるバックボーン層からの特徴量を集約する多尺度特徴融合（Multi-Scale Feature Fusion: MSFF）モジュール；3. 中心フレームと周辺フレーム間での効果的な情報交換を行い、モデルの時間的一貫性を向上させるクロスアテンションモジュール。提案されたアーキテクチャは複雑な動画シナリオでの性能向上に寄与し、実世界アプリケーションに適したスケーラビリティと計算効率も提供します。当手法はPoseTrack21およびPoseTrack18データセットにおいて最先端の性能を達成しており、それぞれmAPスコア88.3と87.8を記録し、既存の方法を超える結果を得ています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています