강건한 얼굴 표정 인식 모델 탐색: 대규모 시각적 크로스코퍼스 연구
지난 두 세기 동안 많은 연구자들이 강건한 감정 인식 시스템을 개발하기 위해 노력해왔다. 이러한 시스템은 사용자의 정서 상태를 분석함으로써 인간-컴퓨터 상호작용 과정에서 훨씬 더 자연스러운 피드백을 제공함으로써 컴퓨터 시스템의 상호작용 수준을 새롭게 발전시킬 수 있다. 그러나 이 분야에서 가장 핵심적인 문제 중 하나는 일반화 능력의 부족이다. 즉, 한 데이터 코퍼스에서 학습한 모델이 다른 데이터 코퍼스에서 평가될 때 성능이 급격히 저하되는 현상이 관찰된다. 비록 이 분야에서 일부 연구가 진행되었지만, 시각적 모달리티는 여전히 충분히 탐구되지 않은 상태이다. 따라서 본 연구에서는 기록 조건, 참가자 외형 특성, 데이터 처리의 복잡성 측면에서 상이한 8개의 데이터 코퍼스를 활용하여 시각적 크로스-코퍼스 연구를 수행한다. 또한, 다수의 영상 프레임 간 시간적 의존성을 모델링하기 위해 강건한 사전 학습된 백본 모델과 시간적 하위 시스템을 포함하는 시각 기반 엔드투엔드 감정 인식 프레임워크를 제안한다. 더불어 백본 모델의 오류 분석 및 장점에 대한 심층적인 평가를 제공하며, 이는 모델의 뛰어난 일반화 능력을 입증한다. 실험 결과, 백본 모델은 AffectNet 데이터셋에서 66.4%의 정확도를 기록하여 기존의 최첨단 기술들을 모두 상회함을 확인하였다. 또한, CNN-LSTM 모델은 크로스-코퍼스 실험에서 동적 시각 데이터셋에 대해 우수한 성능을 보였으며, 최신 기술과 비교 가능한 결과를 달성하였다. 마지막으로, 향후 연구자들이 활용할 수 있도록 백본 모델과 CNN-LSTM 모델을 GitHub를 통해 공개한다.