17일 전

몸짓 데이터셋을 활용한 노이즈 있는 스타디언트 훈련은 얼굴 표정 인식 성능을 향상시킨다

Vikas Kumar, Shivansh Rao, Li Yu
몸짓 데이터셋을 활용한 노이즈 있는 스타디언트 훈련은 얼굴 표정 인식 성능을 향상시킨다
초록

자연 환경의 영상에서 얼굴 표정 인식은 풍부한 레이블링된 학습 데이터 부족으로 인해 도전적인 과제이다. 대규모 DNN(심층 신경망) 아키텍처와 앙상블 방법론은 성능 향상에 기여하였지만, 데이터 부족으로 인해 일정 수준에서 포화 상태에 이를 수밖에 없다. 본 논문에서는 레이블링된 데이터셋과 레이블링되지 않은 데이터셋(Body Language Dataset - BoLD)을 결합하여 활용하는 자기 학습(self-training) 방법을 제안한다. 실험적 분석을 통해 반복적으로 노이즈가 있는 학습자(student) 네트워크를 훈련하는 것이 상당히 우수한 성능을 달성하는 데 기여함을 확인하였다. 또한 본 모델은 얼굴의 다양한 영역을 분리하여 다수의 레벨에 걸친 주의 메커니즘(attention mechanism)을 사용해 독립적으로 처리함으로써 성능을 추가로 향상시켰다. 실험 결과, 제안하는 방법은 단일 모델 기준으로 기준 데이터셋 CK+와 AFEW 8.0에서 기존의 다른 단일 모델들과 비교하여 최신 기술 수준(SOTA)의 성능을 달성하였다.