
要約
畳み込みニューラルネットワーク(ConvNets)は、さまざまな視覚認識タスクにおいて優れた認識性能を達成しています。その成功の最も重要な要因の一つは、大量のラベル付き訓練データセットです。しかし、顕著年齢推定、頭部姿勢推定、多ラベル分類、セマンティックセグメンテーションなどの一部の領域では、正確なラベルを持つ十分な訓練画像を集めることが困難です。幸いにも、これらのタスクは伝統的な分類とは異なり、ラベル間には曖昧な情報が存在します。この観察に基づいて、各画像のラベルを離散的なラベル分布に変換し、深層ConvNetsを使用して予測されたラベル分布と真のラベル分布との間のカールバック・ライブラー距離を最小化することにより、ラベル分布を学習します。提案するDLDL(Deep Label Distribution Learning)手法は、特徴量学習と分類器学習の両方でラベルの曖昧性を効果的に利用し、訓練データセットが少ない場合でもネットワークが過学習するのを防ぐのに役立ちます。実験結果は、提案手法が顕著年齢推定や頭部姿勢推定において最先端の方法よりも有意に優れた結果を生み出すことを示しており、同時に多ラベル分類やセマンティックセグメンテーションタスクにおける認識性能も向上させています。