
얼굴 표정 자동 분석에 대한 연구는 주로 일곱 가지 기본 표정을 식별하는 데 초점을 맞추고 있다. 그러나 복합 표정은 더 다양하며 일상적인 정서 표현의 복잡성과 미묘함을 보다 정확히 반영한다. 그러나 복합 표정 인식(CER)에 대한 연구는 여전히 제한적이다. 그 이유는 복합 표정 데이터베이스가 극히 적고, 소규모이며 실험실 환경에서 제어된 상태로, 불균형하고 정적인 특성을 지니기 때문이다. 본 논문에서는 200,000 프레임에 달하는 400개의 영상으로 구성된 자연 환경에서 수집된 A/V 데이터베이스인 C-EXPR-DB를 제안한다. 이 데이터베이스는 13개의 복합 표정, 정서의 가치-각성(descriptors), 행동 단위(AU), 음성, 얼굴 랜드마크 및 속성에 대해 주석이 달려 있다. 또한 CER 및 AU 탐지(AU-D)를 위한 다중 작업 학습(MTL) 방법론인 C-EXPR-NET을 제안한다. 여기서 AU-D는 CER 성능을 향상시키기 위해 도입된 보조 작업이다. AU-D에서는 시각 정보 외에 AU의 의미적 설명을 함께 활용한다. CER에서는 다중 레이블 설정과 KL 발산 손실을 사용한다. 더불어 CER와 AU-D 작업 간의 상호 연결을 강화하고 부정적 전이(즉, MTL 모델의 성능이 최소한 하나의 단일 작업 모델보다 낮아지는 현상)를 완화하기 위해 분포 매칭 손실을 제안한다. 광범위한 실험을 통해 C-EXPR-NET의 뛰어난 성능을 입증하였으며, 이는 이론적 주장의 타당성을 확인한다. 마지막으로, C-EXPR-NET이 새로운 정서 인식 환경에서 제로샷(zero-shot) 방식으로 효과적으로 지식을 일반화함을 보여준다.