要約
顔の美しさ予測(Facial Beauty Prediction: FBP)は、制約された環境で撮影された画像において高い精度を達成しているが、実際の状況(in-the-wild)における顔画像に対しては依然として困難な課題である。さらに、多様な人種、年齢、性別を有する画像を含み、表情や姿勢に制限のない顔の美しさ予測のベンチマークデータセットは存在しない。本研究では、現実世界におけるFBPの課題に取り組み、多様な人種を対象とした顔の美しさデータセット「MEBeauty」を提案する。すべての顔画像は制約のない環境で撮影され、多様な人種、年齢、性別を持つボランティアによる評価が行われており、美しさの認識における文化的・社会的バイアスを回避することを目的としている。本データセットに対して、層ごとの転移学習を用いた複数の代表的なCNNモデルを適用した。また、顔認識タスクから得られる知識がFBPにどのように活用できるかを評価した。さらに、顔の美しさ予測に向けた深層回帰ネットワークを学習する際に、異常値や外れ値の多いデータセット特性を考慮し、さまざまなロバストな損失関数の有効性を検証した。提案されたMEBeautyデータセットおよび広く使用されているSCUT-FBP 5500データセットを用いて、複数のFBPフレームワークを比較し、制約環境と非制約環境における顔画像に対する性能の有効性を検証した。