16日前

複数タスク同時頭部姿勢推定(オブザーバブル・イン・ザ・ワイルド)

Roberto Valle, José Miguel Buenaposada, Luis Baumela
複数タスク同時頭部姿勢推定(オブザーバブル・イン・ザ・ワイルド)
要約

本稿では、画像中の顔の姿勢推定を目的とした深層学習ベースのマルチタスクアプローチを提案する。本研究では、顔の姿勢、アライメント(整列)、可視性の間にある強い依存関係を活用するネットワークアーキテクチャおよびトレーニング戦略を構築し、これら3つのタスクにおいて優れた性能を発揮するモデルを実現した。提案するアーキテクチャは、残差ブロック(residual blocks)と横方向のスキップ接続(lateral skip connections)を備えたエンコーダ・デコーダ型CNNである。実験により、顔の姿勢推定とランドマークに基づく顔アライメントの組み合わせが、前者のタスク性能を顕著に向上させることを示した。さらに、姿勢推定タスクをエンコーダのボトルネック層(中間層)に配置し、空間情報に依存するタスク(可視性やアライメントなど)をデコーダの最終層に配置することで、最終的な性能向上が達成された。実験結果において、提案モデルは顔の姿勢推定および可視性推定のタスクにおいて、既存の最先端技術を上回る性能を達成した。また、最終段階にランドマーク回帰ステップを追加することで、顔アライメントの結果も最先端水準と同等の精度を実現した。

複数タスク同時頭部姿勢推定(オブザーバブル・イン・ザ・ワイルド) | 最新論文 | HyperAI超神経