
要約
本研究では、顔画像に基づく年齢推定のための新たな深層学習アプローチを提案する。まず、注目(attention)に基づく二重画像増強・集約手法を導入する。この手法により、複数の顔画像増強データの埋め込み表現をTransformerエンコーダによって集約し、ネットワークがそれらを統合的に利用できる。得られた集約埋め込み表現は、顔画像の特徴をより効果的に表現していることが示された。次に、離散的な年齢ラベルの確率的推定と、対応する回帰器のアンサンブルを統合する確率的階層回帰フレームワークを提案する。各回帰器は、特定の年齢範囲において確率的推定を精緻化するように特に設計・学習される。この手法は、MORPH IIデータセットを用いた年齢推定において、既存の手法を上回る性能を示し、新たな最先端の推定精度を達成した。最後に、最先端の年齢推定結果に対するバイアス分析を提示する。