2ヶ月前

MiVOLO: 多入力トランスフォーマーによる年齢と性別の推定

Kuprashevich, Maksim ; Tolstykh, Irina
MiVOLO: 多入力トランスフォーマーによる年齢と性別の推定
要約

野生環境での年齢と性別の認識は非常に困難な課題である:条件の変動性、姿勢の複雑さ、画像品質の違いに加えて、顔が部分的にまたは完全に隠されている場合もある。本稿では、最新のビジョントランスフォーマーを使用した年齢と性別の推定手法であるMiVOLO(Multi Input VOLO)を提案する。当手法は両タスクを統合し、二つの入力/出力モデルとして実装することで、顔情報だけでなく人物画像データも活用している。これにより、モデルの汎化能力が向上し、画像中に顔が見えない場合でも満足できる結果を提供することが可能となった。提案モデルの評価のために、4つの主要ベンチマークで実験を行い、最先端の性能を達成するとともにリアルタイム処理能力も示した。さらに、Open Images Datasetからの画像に基づく新しいベンチマークを導入する。このベンチマークの真値アノテーションは人間アノテーターによって慎重に生成され、投票結果の賢明な集約により高精度な回答を得ている。また、当モデルの年齢認識性能を人間レベルの精度と比較し、多くの年齢範囲において人間よりも大幅に優れていることを示した。最後に、当モデルと検証・推論用コードへの公開アクセスを提供し、使用データセットに対する追加アノテーションも提供するとともに新ベンチマークを紹介する。