
초록
비디오 기반 얼굴 표현 인식은 주어진 비디오를 여러 기본 감정으로 분류하는 것을 목표로 합니다. 개별 프레임의 얼굴 특성을 어떻게 통합할지가 이 작업에서 매우 중요합니다. 본 논문에서는 프레임 주의 네트워크(Frame Attention Networks, FAN)를 제안하여 엔드투엔드(end-to-end) 프레임워크에서 일부 구분력 있는 프레임을 자동으로 강조합니다. 이 네트워크는 변수 수의 얼굴 이미지를 가진 비디오를 입력으로 받아 고정된 차원의 표현을 생성합니다. 전체 네트워크는 두 가지 모듈로 구성됩니다. 특성 임베딩 모듈은 얼굴 이미지를 특성 벡터로 임베딩(embedding)하는 깊은 컨벌루션 신경망(Convolutional Neural Network, CNN)입니다. 프레임 주의 모듈은 여러 주의 가중치(attention weights)를 학습하여 이를 사용해 특성 벡터들을 적응적으로 집계하여 단일한 구분력 있는 비디오 표현을 형성합니다. 우리는 CK+와 AFEW8.0 데이터셋에 대해 광범위한 실험을 수행했습니다. 제안된 FAN은 다른 CNN 기반 방법들보다 우수한 성능을 보여주며, CK+에서 최신 기술(state-of-the-art) 성능을 달성하였습니다.