2ヶ月前

ポセイドン:適応的なフレーム重み付けと多尺度特徴量融合を用いた複数フレーム姿勢推定のViTベースアーキテクチャ

Pace, Cesare Davide ; De Nunzio, Alessandro Marco ; De Stefano, Claudio ; Fontanella, Francesco ; Molinara, Mario
ポセイドン:適応的なフレーム重み付けと多尺度特徴量融合を用いた複数フレーム姿勢推定のViTベースアーキテクチャ
要約

人間姿勢推定は、コンピュータビジョンにおける重要なタスクであり、画像や動画から人間の関節を検出および局所化することを目的としています。単一フレームの姿勢推定は大きな進歩を遂げていますが、複雑で連続的な動きの時間的動態を捉えることがしばしば困難です。これらの制限に対処するため、私たちはPoseidonという新しいマルチフレーム姿勢推定アーキテクチャを提案します。PoseidonはViTPoseモデルを拡張し、時間的情報を取り込むことで精度と堅牢性を向上させます。Poseidonの主要な革新点は以下の通りです:1. 関連性に基づいてフレームを動的に優先する適応的フレーム重み付け(Adaptive Frame Weighting: AFW)メカニズム;2. 細部の詳細と高レベルの意味論を両方捉えるために、異なるバックボーン層からの特徴量を集約する多尺度特徴融合(Multi-Scale Feature Fusion: MSFF)モジュール;3. 中心フレームと周辺フレーム間での効果的な情報交換を行い、モデルの時間的一貫性を向上させるクロスアテンションモジュール。提案されたアーキテクチャは複雑な動画シナリオでの性能向上に寄与し、実世界アプリケーションに適したスケーラビリティと計算効率も提供します。当手法はPoseTrack21およびPoseTrack18データセットにおいて最先端の性能を達成しており、それぞれmAPスコア88.3と87.8を記録し、既存の方法を超える結果を得ています。

ポセイドン:適応的なフレーム重み付けと多尺度特徴量融合を用いた複数フレーム姿勢推定のViTベースアーキテクチャ | 最新論文 | HyperAI超神経