18일 전

그리드 단위 주의력과 시각적 Transformer를 활용한 얼굴 표정 인식

{Fan Jiang, Xizhe Wang, Changqin Huang, Qionghao Huang}
초록

얼굴 표정 인식(Facial Expression Recognition, FER)은 합성곱 신경망(Convolutional Neural Networks, CNN)의 활용을 통해 놀라운 진전을 이루었다. 그러나 CNN의 합성곱 필터는 공간적 국소성(spatial locality)에 의존하기 때문에, 대부분의 신경망 계층에서 얼굴의 서로 다른 영역 간의 장거리 유도 편향(long-range inductive biases)을 학습하지 못하는 한계를 지닌다. 이로 인해 CNN 기반 모델의 FER 성능은 여전히 제한적이다. 이러한 문제를 해결하기 위해 본 논문은 CNN 기반 모델을 위한 새로운 FER 프레임워크를 제안하며, 이 프레임워크는 저수준 특징 학습과 고수준 의미 표현에 각각 사용되는 두 가지 주의 메커니즘(attention mechanisms)을 포함한다. 특히 저수준 특징 학습에서는 그리드 기반 주의 메커니즘(grid-wise attention mechanism)을 제안하여 얼굴 표정 이미지 내 다양한 영역 간의 의존성을 효과적으로 포착함으로써, 저수준 특징 학습 시 합성곱 필터의 파라미터 업데이트를 정규화한다. 고수준 의미 표현에서는 시각적 트랜스포머 주의 메커니즘(visual transformer attention mechanism)을 도입하여 고차원 합성곱 레이어 �ブロック의 피라미드 특징(pyramid features)에서 생성된 시각적 의미 토큰(visual semantic tokens)의 시퀀스를 활용하여 전역적 표현(global representation)을 학습한다. 제안된 FER-VT 모델은 CK+, FER+, RAF-DB 등 세 가지 공개된 얼굴 표정 데이터셋을 대상으로 광범위한 실험을 수행하였으며, 그 결과 제안 모델은 각 데이터셋에서 최신 기술(SOTA, state-of-the-art) 수준의 성능을 달성하였고, 특히 추가 학습 데이터 없이 CK+ 데이터셋에서 100%의 정확도를 기록하여 뛰어난 성능을 입증하였다.