2달 전

EmoCLIP: 제로샷 비디오 얼굴 표현 인식을 위한 시각-언어 방법

Niki Maria Foteinopoulou; Ioannis Patras
EmoCLIP: 제로샷 비디오 얼굴 표현 인식을 위한 시각-언어 방법
초록

얼굴 표현 인식(Facial Expression Recognition, FER)은 감성 컴퓨팅에서 중요한 작업이지만, 전통적으로 일곱 가지 기본 감정에만 초점을 맞추는 것은 복잡하고 확장되는 감정 스펙트럼에 대한 적용성을 제한합니다. 동적 실제 환경에서의 새로운 그리고 미처 본 적 없는 감정들을 포함하는 FER 문제를 해결하기 위해, 샘플 단위 텍스트 설명(즉, 맥락, 표현 또는 감정 신호의 캡션)을 자연어 지도로 활용하는 혁신적인 시각-언어 모델을 제안합니다. 이 모델은 풍부한 잠재 표현 학습을 강화하여 zero-shot 분류를 목표로 합니다. 이를 검증하기 위해, 샘플 단위 설명으로 학습된 모델의 zero-shot 분류 성능을 네 개의 인기 있는 동적 FER 데이터셋에서 평가했습니다. 연구 결과, 이 접근법은 기준 방법들과 비교해 상당한 개선 효과를 보였습니다. 특히, 여러 데이터셋에서 zero-shot 비디오 FER 측면에서는 CLIP보다 가중 평균 재현율(Weighted Average Recall)에서 10% 이상, 비가중 평균 재현율(Unweighted Average Recall)에서 5% 이상 우수한 성능을 보였습니다. 또한, 샘플 단위 설명으로 학습된 네트워크에서 얻은 표현들을 정신 건강 증상 추정이라는 하위 작업에서 평가했으며, 최신 방법론과 유사하거나 그보다 뛰어난 성능을 달성하였고 인간 전문가와 높은 일치성을 보였습니다. 구체적으로는 정신분열증 증상 심각도 추정에서 피어슨 상관계수(Pearson's Correlation Coefficient) 0.85까지 도달하여 인간 전문가 간의 일치성과 유사한 수준을 보였습니다. 코드는 공개되어 있으며 다음 주소에서 확인할 수 있습니다: https://github.com/NickyFot/EmoCLIP.

EmoCLIP: 제로샷 비디오 얼굴 표현 인식을 위한 시각-언어 방법 | 최신 연구 논문 | HyperAI초신경