16日前

野外環境における顔解析のための RoI Tanh-極座標変換ネットワーク

Yiming Lin, Jie Shen, Yujiang Wang, Maja Pantic
野外環境における顔解析のための RoI Tanh-極座標変換ネットワーク
要約

顔パーシング(face parsing)は、画像内のターゲット顔の各ピクセルに対して顔部品のラベルを予測することを目的としている。従来の手法は、事前処理段階で計算されたバウンディングボックスに基づいてターゲット顔を入力画像から切り出し、その結果、顔の内部領域(Region of Interest: RoI)のみを解析するという制約がある。これにより、髪やその他の周辺領域は無視され、バウンディングボックス内に部分的に含まれる他の顔が干渉要因となる場合がある。さらに、これらの手法は主に正面に近いポートレート画像上で訓練・評価されており、実際の屋外環境(in-the-wild)における性能については未検証である。本研究はこれらの課題に対処するために、以下の3つの貢献を提示する。第一に、屋外環境における顔パーシングを目的としたiBugMaskデータセットを導入した。このデータセットは、21,866枚の学習画像と1,000枚のテスト画像から構成されており、既存データセットを大規模な顔の姿勢(pose)を用いて拡張することで得られた。テスト画像は手動で11個の顔領域にラベル付けされており、サイズ、姿勢、表情、背景に大きな変動が見られる。第二に、RoI Tanh-polar変換を提案する。この変換は、ターゲットバウンディングボックスを基準に、画像全体を固定された顔領域と文脈領域の比率を保つTanh-polar表現に変形する。この新しい表現は元画像のすべての情報を保持しており、畳み込みニューラルネットワーク(CNN)における回転等価性(rotation equivariance)を可能にする。第三に、Tanh-polar空間とTanh-Cartesian空間の両方に畳み込み層を含むハイブリッド残差表現学習ブロック(HybridBlock)を提案する。これにより、CNNにおける受容場(receptive field)の形状を異なる形で制御できる。広範な実験を通じて、提案手法が屋外環境における顔パーシングの最先端性能を向上させ、顔ランドマークを用いたアライメントを必要としないことを示した。

野外環境における顔解析のための RoI Tanh-極座標変換ネットワーク | 最新論文 | HyperAI超神経