2달 전

사용자 생성 비디오에서 감정 인식을 위한 단일 시각-음성 주의 네트워크

Sicheng Zhao; Yunsheng Ma; Yang Gu; Jufeng Yang; Tengfei Xing; Pengfei Xu; Runbo Hu; Hua Chai; Kurt Keutzer
사용자 생성 비디오에서 감정 인식을 위한 단일 시각-음성 주의 네트워크
초록

사용자 생성 동영상에서 감정 인식은 인간 중심 컴퓨팅에서 중요한 역할을 합니다. 기존 방법들은 주로 시각적 및/또는 청각적 특성을 추출하고 분류기를 학습하는 전통적인 두 단계의 얕은 파이프라인을 사용합니다. 본 논문에서는 컨볼루션 신경망(CNN)을 기반으로 한 엔드투엔드 방식으로 동영상 감정을 인식하는 방법을 제안합니다. 구체적으로, 공간적, 채널별, 시간적 주의를 시각 3D CNN에 통합하고 시간적 주의를 청각 2D CNN에 통합한 새로운 아키텍처인 깊은 시각-청각 주의 네트워크(VAANet)를 개발하였습니다. 또한, 극성-감정 계층 구조 제약을 바탕으로 주의 생성을 안내하기 위한 특수한 분류 손실 함수, 즉 극성 일관성 교차 엔트로피 손실 함수를 설계하였습니다. VideoEmotion-8와 Ekman-6라는 도전적인 데이터셋에서 수행된 광범위한 실험 결과, 제안된 VAANet이 동영상 감정 인식 분야에서 최신 연구 접근법들을 능가함을 입증하였습니다. 우리의 소스 코드는 다음 링크에서 공개됩니다: https://github.com/maysonma/VAANet.

사용자 생성 비디오에서 감정 인식을 위한 단일 시각-음성 주의 네트워크 | 최신 연구 논문 | HyperAI초신경