주의를 산만하게 하라: 얼굴 표정 인식을 위한 다중 헤드 크로스 어텐션 네트워크

우리는 새로운 얼굴 표정 인식 네트워크인 '주의를 산만하게 하는 네트워크(Distract your Attention Network, DAN)'를 제안한다. 본 연구는 두 가지 핵심 관찰에 기반한다. 첫째, 다양한 클래스는 본질적으로 유사한 얼굴 외형을 공유하며, 이들 간의 차이는 미묘할 수 있다. 둘째, 얼굴 표정은 동시에 여러 얼굴 부위에서 나타나며, 지역적 특징 간의 고차원 상호작용을 인코딩하는 종합적인 접근이 필요하다. 이러한 문제를 해결하기 위해, 특징 클러스터링 네트워크(Feature Clustering Network, FCN), 멀티헤드 크로스 어텐션 네트워크(Multi-head cross Attention Network, MAN), 어텐션 융합 네트워크(Attention Fusion Network, AFN)의 세 가지 핵심 구성 요소를 포함한 DAN을 제안한다. FCN은 클래스 간 구분력을 극대화하기 위해 대간격 학습 목표를 채택하여 강건한 특징을 추출한다. MAN은 여러 어텐션 헤드를 활용하여 동시에 여러 얼굴 부위에 주목하고, 각 부위에 대한 어텐션 맵을 생성한다. 또한 AFN은 어텐션 맵들을 융합하기 전에 이들 어텐션을 여러 위치로 산만하게 유도한다. AffectNet, RAF-DB, SFEW 2.0을 포함한 세 가지 공개 데이터셋에서 실시한 광범위한 실험을 통해 제안된 방법이 일관되게 최신 기술 수준의 얼굴 표정 인식 성능을 달성함을 입증하였다. 코드는 https://github.com/yaoing/DAN에서 공개될 예정이다.