
초록
얼굴 표정을 다양한 범주로 분류하기 위해서는 얼굴 랜드마크의 지역적 왜곡을 포착해야 합니다. 우리는 이차 통계량인 공분산이 이러한 지역적 얼굴 특징의 왜곡을 더 잘 포착할 수 있다고 믿습니다. 본 연구에서는 공분산 풀링을 개선하여 얼굴 표정 인식을 향상시키기 위해 다양체(Manifold) 네트워크 구조의 장점을 탐구합니다. 특히, 개별 이미지 피처 맵 내에서 공간적 풀링을 수행하기 위해 전통적인 컨볼루션 네트워크와 함께 다양체 네트워크를 사용하는 엔드투엔드 딥러닝 방식을 처음으로 적용하였습니다. 이를 통해 Static Facial Expressions in the Wild (SFEW 2.0) 검증 세트에서 58.14%의 인식 정확도와 Real-World Affective Faces (RAF) 데이터베이스 검증 세트에서 87.0%의 인식 정확도를 달성하였습니다. 이 두 결과 모두 우리가 알고 있는 최고의 결과입니다. 또한, 비디오 기반 얼굴 표정 인식에서 프레임별 특징의 시간적 변화를 포착하기 위해 공분산 풀링을 활용하였습니다. 보고된 결과들은 설계된 공분산 풀링 다양체 네트워크를 컨볼루션 네트워크 계층 위에 쌓아 이미지 집합 특징을 시간적으로 풀링하는 방법의 우수성을 입증하고 있습니다.