초록
자동 얼굴 표정 인식(Facial Expression Recognition, FER)은 인간-컴퓨터 상호작용 분야에서의 응용 가능성으로 인해 주목받고 있다. FER 작업의 성능을 향상시키기 위한 다양한 접근법 중에서 본 논문은 주의 메커니즘(attention mechanism)을 갖춘 딥 아키텍처에 초점을 맞춘다. 제안하는 새로운 마스킹 아이디어(Masking Idea)는 CNN의 얼굴 표정 인식 성능을 향상시키는 데 기여한다. 이 방법은 세그멘테이션 네트워크를 활용하여 특징 맵(feature maps)을 정제함으로써, 네트워크가 관련 정보에 집중할 수 있도록 하여 정확한 판단을 가능하게 한다. 실험에서는 널리 사용되는 딥 리즈idual 네트워크(Deep Residual Network)와 유사한 U-Net 아키텍처를 결합하여 리즈idual 마스킹 네트워크(Residual Masking Network)를 설계하였다. 제안된 방법은 잘 알려진 FER2013 데이터셋과 사내 데이터셋인 VEMO에서 최신 기준(SOTA, State-of-the-Art) 정확도를 달성하였다.