11日前
人間のポーズ記述と主体中心の注目メカニズムを用いた、人間中心分類タスクにおける改善されたゼロショット転移
Muhammad Saif Ullah Khan, Muhammad Ferjad Naeem, Federico Tombari, Luc Van Gool, Didier Stricker, Muhammad Zeshan Afzal

要約
本稿では、補助的属性のみを用いて画像中の人体ポーズに関する文脈的な記述を生成するための新規なLLMベースのパイプラインを提案する。このアプローチにより、410種類の異なる行動に従事する人物を含む17,367枚の画像に対して自然言語によるアノテーションを備えた「MPII Pose Descriptions」データセットの構築が可能となった。我々は、CLIPを用いたゼロショット人間中心分類において、提案するポーズ記述の有効性を実証した。さらに、テキスト-画像間のアライメントを向上させるため、CLIPに「主体焦点注意(Subject-Focused Attention, SFA)」を組み込んだ「FocusCLIP」フレームワークを導入した。本研究で開発したモデルはMPII Pose Descriptionsデータセット上で事前学習を行い、3つのタスクをカバーする5つの未観測データセット上でゼロショット性能を評価した。その結果、ベースラインとなるCLIPモデル(25.04%)に対して、FocusCLIPは平均的に8.61%の精度向上(33.65%)を達成した。特に、行動認識では3.98%、年齢分類では14.78%、感情認識では7.06%の改善が見られた。これらの結果は、詳細なポーズ記述と主体レベルのガイドラインを汎用的な事前学習フレームワークに統合することによって、下流タスクにおける性能向上が実現可能であることを示している。