EMOTIC 데이터셋을 이용한 맥락 기반 감정 인식

우리의 일상생활과 사회적 상호작용에서 우리는 종종 사람들의 감정 상태를 인식하려고 합니다. 이와 관련하여 기계에게 비슷한 감정 인식 능력을 부여하는 데 많은 연구가 이루어져 왔습니다. 컴퓨터 비전 관점에서 대부분의 이전 연구는 얼굴 표현을 분석하는 것에 초점을 맞추었으며, 일부 경우에서는 몸짓도 함께 고려되었습니다. 이러한 방법들은 특정 환경에서는 매우 효과적으로 작동하지만, 자연스럽고 제약이 없는 환경에서는 성능이 제한적입니다. 심리학 연구에 따르면, 장면 맥락은 얼굴 표현과 몸짓뿐만 아니라 사람들의 감정 인식에 중요한 정보를 제공합니다. 그러나 자동 감정 인식을 위한 맥락 처리는 적절한 데이터 부족으로 인해 깊게 탐구되지 않았습니다.본 논문에서는 다양한 자연적인 상황에서 사람들을 촬영한 이미지로 구성된 EMOTIC 데이터셋을 소개합니다. 이 데이터셋은 (1) 26개의 이산 범주 집합과 (2) 연속적인 차원인 Valence(가치), Arousal(흥분), Dominance(지배성)를 결합한 두 가지 유형의 감정 표현을 포함하고 있습니다. 또한, 데이터셋의 통계적 및 알고리즘적 분석과 주석 작성자들의 합의 분석을 상세히 제시합니다. EMOTIC 데이터셋을 사용하여 우리는 사람을 포함하는 바운딩 박스 정보와 장면에서 추출된 맥락 정보를 결합하여 다양한 CNN 모델을 훈련시켰습니다. 우리의 결과는 장면 맥락이 자동으로 감정 상태를 인식하는 데 중요한 정보를 제공함을 보여주며, 이 방향으로 더 많은 연구를 촉진시키고 있습니다.데이터셋과 코드는 오픈 소스로 제공되며, 다음 주소에서 확인할 수 있습니다: https://github.com/rkosti/emotic 그리고 피어 리뷰(preview)된 출판물은 다음 링크에서 확인 가능합니다: https://ieeexplore.ieee.org/document/8713881