Command Palette
Search for a command to run...
Christoph Schuhmann Robert Kaczmarczyk Gollam Rabby Felix Friedrich Maurice Kraus Kourosh Nadi Huu Nguyen Kristian Kersting S\u00f6ren Auer

초록
텍스트-음성 변환 및 오디오 생성 모델의 발전은 AI 시스템의 감정 이해 능력을 평가하기 위한 견고한 벤치마크를 필요로 합니다. 현재 음성 감정 인식(SER) 데이터셋들은 종종 감정 세분화, 프라이버시 문제, 또는 연기된 표현에 대한 의존성 등의 제한점을 보입니다. 본 논문에서는 새로운 음성 감정 검출 자원인 EmoNet-Voice를 소개합니다. 이는 11개의 목소리, 40개의 감정 카테고리, 그리고 4개 언어로 구성된 4,500시간 이상의 음성을 포함하는 대규모 사전 학습 데이터셋인 EmoNet-Voice Big와 인간 전문가들의 주석이 포함된 새로운 벤치마크 데이터셋인 EmoNet-Voice Bench로 구성됩니다. EmoNet-Voice는 40개의 감정 카테고리와 다양한 강도 수준을 평가하기 위해 설계되었습니다. 최신 음성 생성 기술을 활용하여, 특정 감정을 유발하도록 설계된 장면들을 연기하는 것처럼 합성 오디오 조각들을 큐레이팅했습니다. 특히 심리학 전문가들이 지각된 강도 라벨을 할당함으로써 엄격한 검증을 수행했습니다. 이 합성적이고 프라이버시를 보호하는 접근 방식은 기존 데이터셋에서 자주 누락되는 민감한 감정 상태들을 포함할 수 있게 합니다. 마지막으로, 우리는 인간 전문가들과 높은 일치성을 보이는 새로운 표준의 음성 감정 인식 모델인 Empathic Insight Voice 모델을 소개합니다. 현재 모델 구조 전체에 걸친 우리의 평가는 분노와 같은 고흥분 상태의 감정이 집중과 같은 저흥분 상태보다 훨씬 쉽게 탐지될 수 있다는 등 귀중한 결과를 제공합니다.