2달 전
EmotiCon: Frege의 원칙을 활용한 맥락 인식 다중 모드 감정 인식
Trisha Mittal; Pooja Guhan; Uttaran Bhattacharya; Rohan Chandra; Aniket Bera; Dinesh Manocha

초록
우리는 비디오와 이미지에서 맥락에 기반한 인식된 인간 감정을 인식하기 위한 학습 기반 알고리즘인 EmotiCon을 소개합니다. 심리학의 프레게의 맥락 원칙(Frege's Context Principle)에서 영감을 받은 우리의 접근 방식은 감정 인식을 위해 세 가지 맥락 해석을 결합합니다. 첫 번째 해석은 여러 모달(예: 얼굴과 보행)을 사용하여 감정을 인식하는 것입니다. 두 번째 해석에서는 입력 이미지에서 의미론적 맥락을 수집하고, 이 정보를 부호화하기 위해 자기 주의 기반 CNN(self-attention-based CNN)을 사용합니다. 마지막으로, 세 번째 해석은 에이전트 간의 사회적 동역학적 상호작용과 근접성을 모델링하기 위해 깊이 맵(depth maps)을 사용합니다.우리는 EMOTIC라는 벤치마크 데이터셋에서 수행한 실험을 통해 우리 네트워크의 효율성을 입증하였습니다. 26개 클래스에 걸쳐 평균 정밀도(Average Precision, AP) 점수가 35.48로, 이는 이전 방법들보다 7-8 퍼센트 포인트 개선된 결과입니다. 또한, 다양한 실제 환경에서 사람들의 걷는 모습을 촬영한 비디오 컬렉션인 새로운 데이터셋 GroupWalk를 소개합니다. GroupWalk에서는 4개 카테고리에 걸쳐 AP 점수가 65.83으로, 이 역시 이전 방법들보다 개선된 결과입니다.