
감정 이해는 인공 일반 지능의 필수적인 구성 요소이지만 매우 어려운 부분입니다. 광범위하게 주석이 달린 데이터셋의 부족은 이 분야의 발전을 크게 저해해 왔습니다. 우리는 EmotionCLIP을 소개합니다. 이는 비구조화된 데이터만을 사용하여 언어적 및 비언어적 의사소통에서 시각적 감정 표현을 추출하는 첫 번째 사전 학습 패러다임입니다. 이전 방법에서 사용된 숫자 라벨이나 설명과 달리, 의사소통은 자연스럽게 감정 정보를 포함하고 있습니다. 또한, 의사소통으로부터 감정 표현을 획득하는 것은 인간의 학습 과정과 더욱 일치합니다. 우리는 주제 인식 컨텍스트 인코딩을 통해 EmotionCLIP이 비언어적 감정 신호에 주목하도록 안내하며, 감성 유도 대조 학습(sentiment-guided contrastive learning)을 통해 언어적 감정 신호를 처리합니다. 광범위한 실험들은 EmotionCLIP의 효과성과 전이 가능성을 검증하였습니다. 단순히 선형 프로브 평가 프로토콜(linear-probe evaluation protocol)만 사용하여도, EmotionCLIP은 최신 지도 시각적 감정 인식 방법들을 능가하며 다양한 벤치마크에서 다중 모달 접근법들과 견줄 만한 성능을 보여줍니다. 우리는 EmotionCLIP의 등장이 감정 이해 분야에서 데이터 부족 문제를 해결할 것으로 기대하며, 관련 영역들의 발전을 촉진할 것입니다. 코드와 사전 학습된 모델은 https://github.com/Xeaver/EmotionCLIP에서 제공됩니다.