표현, 감정, 행동 단위 인식: Aff-Wild2, 다중 작업 학습 및 ArcFace

정서 컴퓨팅은 활용 가능한 데이터 자원 측면에서 크게 제한되어 왔다. 딥러닝 모델이 컴퓨터 비전 과제를 해결하는 표준적인 접근법으로 부상하면서, 다양한 실외 환경(인-더-와일드, in-the-wild)에서 수집 및 주석화된 데이터셋의 필요성이 더욱 명확해졌다. 최근 몇몇 실외 환경 데이터베이스가 제안되었지만, 다음과 같은 한계를 가지고 있다. 첫째, 데이터 크기가 작다. 둘째, 오디오-시각 다중 모달 데이터가 아니다. 셋째, 수동 주석화된 부분이 매우 제한적이다. 넷째, 연구 대상 인원 수가 적다. 다섯째, 주요 행동 상태(정서의 밸런스-각성도 추정, 행동 단위 탐지, 기본 정서 분류)에 대한 주석이 전부 제공되지 않는다. 이러한 문제를 해결하기 위해, 우리는 현재까지 공개된 가장 큰 실외 환경 데이터베이스인 Aff-Wild를 대폭 확장하여 연속적인 정서(밸런스 및 각성도)를 연구할 수 있도록 하였다. 또한, 데이터베이스 일부를 기본 정서와 행동 단위(Acton Units, AUs)로 수동 주석화하였다. 그 결과, 이번에 처음으로 세 가지 유형의 행동 상태를 종합적으로 연구할 수 있는 기반을 마련하였다. 이 데이터베이스를 Aff-Wild2라고 명명한다. 우리는 CNN 및 CNN-RNN 아키텍처를 사용하여 시각 및 음성 모달리티를 활용한 광범위한 실험을 수행하였으며, 이 네트워크들은 Aff-Wild2에서 훈련된 후, 10개의 공개된 정서 인식 데이터베이스에서 성능을 평가하였다. 실험 결과, 해당 네트워크들이 정서 인식 과제에서 최고 수준의 성능을 달성함을 입증하였다. 더불어, 정서 인식 환경에 적합하게 ArcFace 손실 함수를 재조정하여, Aff-Wild2에서 새로운 두 개의 네트워크를 훈련하고, 다양한 표현 인식 데이터베이스에서 재훈련하였다. 이러한 네트워크는 기존 최고 성능을 초월하는 결과를 보였다. 본 데이터베이스, 정서 인식 모델, 소스 코드는 http://ibug.doc.ic.ac.uk/resources/aff-wild2 에서 공개되어 있다.