주의 풀링을 갖춘 비전 트랜스포머를 이용한 강건한 얼굴 표정 인식

실제 환경에서의 얼굴 표정 인식(Facial Expression Recognition, FER)은 매우 도전적인 과제이다. 최근 몇몇 비전 트랜스포머(Vision Transformer, ViT)가 FER에 적용되고 있으나, 대부분의 경우 기존의 합성곱 신경망(Convolutional Neural Networks, CNN)에 비해 성능이 열등하다. 이는 새로 제안된 모듈들이 유도 편향(inductive bias)이 부족하여 초기 학습에서 수렴이 어렵고, 특히 가림 및 노이즈 영역에 과도하게 집중하기 쉬운 데서 기인한다. 대표적인 트랜스포머 기반 FER 방법인 TransFER는 다중 브랜치 어텐션 드롭을 통해 이 문제를 완화하지만, 과도한 계산량을 수반한다. 반면 본 논문에서는 노이즈가 포함된 특징을 직접 풀링하는 두 가지 주의집중 풀링(Attentive Pooling, AP) 모듈을 제안한다. 이 AP 모듈은 주의집중 패치 풀링(Attentive Patch Pooling, APP)과 주의집중 토큰 풀링(Attentive Token Pooling, ATP)으로 구성된다. 이들은 모델이 가장 구분력 있는 특징을 강조하고, 관련성이 낮은 특징의 영향을 최소화하도록 유도하는 것을 목표로 한다. 제안된 APP는 CNN 특징에서 가장 정보량이 큰 패치를 선택하는 데 사용되며, ATP는 ViT 내에서 중요도가 낮은 토큰을 제거하는 데 활용된다. 학습 가능한 파라미터 없이 구현이 간단하며, 단지 가장 구분력 있는 특징을 추구함으로써 계산 비용을 자연스럽게 줄이고 성능을 향상시킬 수 있다. 정성적 결과는 제안된 주의집중 풀링의 동기와 효과를 입증하며, 실세계 환경에서 테스트된 6개의 데이터셋에 대한 정량적 결과에서도 기존 최첨단 기법들을 능가하는 성능을 보였다.