2ヶ月前

HyperFace: 深層多タスク学習フレームワークによる顔検出、ランドマーク位置特定、姿勢推定、および性別認識

Rajeev Ranjan; Vishal M. Patel; Rama Chellappa
HyperFace: 深層多タスク学習フレームワークによる顔検出、ランドマーク位置特定、姿勢推定、および性別認識
要約

本稿では、深層畳み込みニューラルネットワーク(CNN)を用いた顔検出、ランドマーク位置特定、姿勢推定および性別認識のためのアルゴリズムを提案します。提案手法「HyperFace」は、深層CNNの中間層を別のCNNで融合し、その後に多タスク学習アルゴリズムを適用することで、融合された特徴量上で動作します。この手法は各タスク間の相乗効果を利用することで、個々のタスクの性能向上に寄与します。さらに、以下の2つのHyperFaceのバリエーションを提案します:(1) ResNet-101モデルに基づく「HyperFace-ResNet」で、性能に大幅な改善が見られました;(2) 高再現率の高速顔検出器を使用して領域候補を生成する「Fast-HyperFace」で、アルゴリズムの速度向上が図られています。広範な実験により、提案モデルが顔の全体的な情報と局所的な情報を両方キャプチャできること、そしてこれらの4つのタスクそれぞれにおいて多くの競合アルゴリズムよりも著しく優れた性能を発揮することが示されました。