HyperAIHyperAI

Command Palette

Search for a command to run...

DPIT:人間のポーズ推定のためのデュアルパイプライン統合トランスフォーマー

Shuaitao Zhao Kun Liu Yuhang Huang Qian Bao Dan Zeng Wu Liu

概要

人体ポーズ推定は、さまざまなシーンにおけるすべての人間のキーポイントを特定することを目的としている。現在のアプローチは有望な結果を示しているものの、依然としていくつかの課題に直面している。従来のトップダウン型手法は、個々の人間を別々に処理するため、異なる人間間の相互作用や、それらが置かれたシーン全体との関係を考慮できない。その結果、深刻なオクルージョンが発生した場合、人体検出の性能が著しく低下する。一方、従来のボトムアップ型手法は、すべての人間を同時に扱い、画像全体のグローバルな知識を捉えることができる。しかし、スケールの変動に起因して、トップダウン型手法に比べて精度がやや低いという問題がある。これらの課題を解決するために、本研究では、トップダウン型とボトムアップ型のパイプラインを統合し、異なる受容野の視覚的特徴を探索し、両者の補完性を実現する新しい「デュアルパイプライン統合型トランスフォーマー(Dual-Pipeline Integrated Transformer: DPIT)」を提案する。具体的には、DPITは二つのブランチから構成される。ボトムアップブランチは画像全体を処理し、グローバルな視覚情報を捉える。一方、トップダウンブランチは、単一人分のバウンディングボックスから局所的な視覚特徴を抽出する。その後、それぞれのブランチから得られた特徴表現をトランスフォーマーのエンコーダに供給し、グローバル情報と局所情報の相互作用による融合を実現する。さらに、キーポイントクエリを定義することで、シーン全体と単一人のポーズに関する視覚的特徴を同時に探索し、二つのパイプライン間の相互補完性を実現している。本研究の知見によれば、本手法は、トランスフォーマーを用いてボトムアップ型とトップダウン型のパイプラインを統合するという点で、人体ポーズ推定分野における先駆的な取り組みの一つである。COCOおよびMPIIデータセットにおける広範な実験により、DPITが最先端手法と同等の性能を達成することが確認された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています