
초록
컨벌루션 신경망(ConvNets)은 다양한 시각 인식 과제에서 우수한 인식 성능을 달성하였습니다. 큰 규모의 라벨이 부착된 훈련 세트는 그 성공에 있어 가장 중요한 요소 중 하나입니다. 그러나 일부 영역에서는 정확한 라벨을 가진 충분한 훈련 이미지를 수집하는 것이 어렵습니다. 예를 들어, 겉보기 나이 추정, 머리 자세 추정, 다중 라벨 분류 및 의미 분할 등이 그러합니다. 다행히도 이러한 라벨들 사이에는 모호한 정보가 존재하여, 이는 전통적인 분류와 구별되는 특성을 가지고 있습니다. 이 관찰에 기반하여, 우리는 각 이미지의 라벨을 이산화된 라벨 분포로 변환하고, 깊은 ConvNets를 사용하여 예측된 라벨 분포와 실제 라벨 분포 간의 쿨백-라이블러 발산(Kullback-Leibler divergence)을 최소화함으로써 라벨 분포를 학습합니다. 제안된 DLDL (Deep Label Distribution Learning) 방법은 피처 학습과 분류기 학습 모두에서 라벨의 모호성을 효과적으로 활용하여, 훈련 세트가 작더라도 네트워크가 과적합(over-fitting)되는 것을 방지하는 데 도움을 줍니다. 실험 결과는 제안된 접근법이 나이 추정 및 머리 자세 추정에서 최신 기술(state-of-the-art) 방법보다 현저히 더 나은 결과를 생성함을 보여주며, 동시에 다중 라벨 분류 및 의미 분할 과제에서도 인식 성능을 개선하는 것으로 나타났습니다.