
초록
얼굴 감정 인식(Facial Emotion Recognition, FER)은 임상적 적용 및 행동 분석과 같은 인간-컴퓨터 상호작용 분야에서 중요한 역할을 한다. 인간 얼굴의 이질성과 다양한 얼굴 자세, 조명 조건 등 이미지 내 변동성으로 인해 컴퓨터 모델을 통한 정확하고 견고한 FER는 여전히 도전 과제로 남아 있다. FER 기술 중에서 심층 학습 모델, 특히 합성곱 신경망(Convolutional Neural Networks, CNNs)은 자동 특징 추출 능력과 높은 계산 효율성으로 인해 큰 잠재력을 보여왔다. 본 연구에서는 FER2013 데이터셋에서 단일 네트워크 기반 분류 정확도 최고 성능을 달성하였다. 우리는 VGGNet 아키텍처를 채택하여 하이퍼파라미터를 철저히 최적화하고, 다양한 최적화 방법을 실험하였다. 알려진 바에 따르면, 본 모델은 추가 학습 데이터를 사용하지 않고도 FER2013 데이터셋에서 최신 기술 수준(SOTA)의 단일 네트워크 정확도 73.28%를 달성하였다.