Command Palette
Search for a command to run...
مجموعة بيانات تقييم الفهم اللغوي الموازي الصوتي StepEval
Date
Size
Paper URL
License
Apache 2.0
StepEval Audio Paralinguistic هي مجموعة بيانات لتقييم الفهم الصوتي البارالوجي أصدرها فريق StepFun AI في عام 2025. الورقة ذات الصلة هي "تقرير فني لبرنامج Step-Audio 2"، والذي يهدف إلى تقييم قدرة نماذج الذكاء الاصطناعي على فهم المعلومات اللغوية الموازية (مثل الجنس والعمر ونبرة الصوت والعواطف وما إلى ذلك) في الكلام.
تتكون هذه المجموعة من 550 عينة صوتية، موزعة بالتساوي على 11 بُعدًا للمهام: الجنس، والعمر، وجرس الصوت، والعاطفة، ودرجة الصوت، والإيقاع، والسرعة، وأسلوب التحدث، والنشاط الصوتي، والسيناريو، ونوع الحدث. تستند المهام الثماني الأولى إلى مقاطع صوتية صينية مأخوذة من 400 بودكاست عام، بينما تستخدم المهام الثلاث الأخيرة 50 عينة صوتية من كل من AudioSet (الأحداث)، وCochlScene (المشاهد البيئية)، وVocalSound (المؤثرات الصوتية). جميع العينات لا تتجاوز مدتها 30 ثانية، وتُعاد عيناتها بانتظام إلى 24 كيلوهرتز، ويُعلق عليها فريق متخصص.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.