Command Palette
Search for a command to run...
مجموعة بيانات تقييم الفهم اللغوي الموازي الصوتي StepEval
التاريخ
الحجم
رابط الورقة البحثية
الترخيص
Apache 2.0
العلامات
StepEval Audio Paralinguistic هي مجموعة بيانات لتقييم الفهم الصوتي البارالوجي أصدرها فريق StepFun AI في عام 2025. الورقة ذات الصلة هي "تقرير فني لبرنامج Step-Audio 2"، والذي يهدف إلى تقييم قدرة نماذج الذكاء الاصطناعي على فهم المعلومات اللغوية الموازية (مثل الجنس والعمر ونبرة الصوت والعواطف وما إلى ذلك) في الكلام.
تتكون هذه المجموعة من 550 عينة صوتية، موزعة بالتساوي على 11 بُعدًا للمهام: الجنس، والعمر، وجرس الصوت، والعاطفة، ودرجة الصوت، والإيقاع، والسرعة، وأسلوب التحدث، والنشاط الصوتي، والسيناريو، ونوع الحدث. تستند المهام الثماني الأولى إلى مقاطع صوتية صينية مأخوذة من 400 بودكاست عام، بينما تستخدم المهام الثلاث الأخيرة 50 عينة صوتية من كل من AudioSet (الأحداث)، وCochlScene (المشاهد البيئية)، وVocalSound (المؤثرات الصوتية). جميع العينات لا تتجاوز مدتها 30 ثانية، وتُعاد عيناتها بانتظام إلى 24 كيلوهرتز، ويُعلق عليها فريق متخصص.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.