HyperAI

StepEval Audio Paralinguistic은 StepFun AI 팀이 2025년에 발표한 오디오 파라링구스틱 이해 평가 데이터 세트입니다. 관련 논문은 "Step-Audio 2 기술 보고서"는 AI 모델이 음성에 포함된 준언어 정보(성별, 나이, 어조, 감정 등)를 이해하는 능력을 평가하는 것을 목표로 합니다.

이 데이터셋은 성별, 연령, 음색, 감정, 음높이, 리듬, 속도, 화법, 발성, 시나리오, 이벤트 유형 등 11가지 작업 차원에 균등하게 분포된 550개의 음성 샘플로 구성되어 있습니다. 처음 8개 작업은 400개의 공개 팟캐스트에서 샘플링한 중국어 오디오 클립을 기반으로 하며, 나머지 3개 작업은 AudioSet(이벤트), CochlScene(환경 장면), VocalSound(음성 효과음)에서 각각 50개의 오디오 샘플을 사용합니다. 모든 샘플은 30초 미만으로 유지되며, 24kHz로 균일하게 리샘플링되고 전문가 팀이 주석을 달았습니다.