HyperAIHyperAI

Command Palette

Search for a command to run...

Vocalsound: مجموعة بيانات لتحسين التعرف على الأصوات البشرية الصوتية

Yuan Gong Jin Yu James Glass

الملخص

تمييز الصوتيات البشرية غير اللغوية يُعد مهمة مهمة ولها تطبيقات واسعة مثل الترجمة الصوتية التلقائية ورصد حالة الصحة. ومع ذلك، فإن المجموعات البيانات الحالية تحتوي على عدد محدود نسبيًا من عينات الصوت الصوتي أو تمتلك تسميات مشوهة. ونتيجة لذلك، قد لا تؤدي النماذج الحديثة لتصنيف الأحداث الصوتية إلى أداء جيد في كشف الصوتيات البشرية. ولدعم الأبحاث المتعلقة ببناء نماذج قادرة على التعرف على الصوتيات بدقة وثبات، قمنا بإنشاء مجموعة بيانات تُسمى VocalSound، تتضمن أكثر من 21,000 تسجيلاً تم جمعها من جمهور، تشمل ضحكات، وتنفسات عميقة، وسعال، وتنفيس الحنجرة، وعطس، وتنفيس الأنف، من 3,365 فردًا فريدًا. أظهرت التجارب أن أداء نموذج التعرف على الصوتيات يمكن تحسينه بشكل كبير بنسبة 41.9% من خلال إضافة مجموعة بيانات VocalSound كمواد تدريبية إلى مجموعة بيانات موجودة. بالإضافة إلى ذلك، وخلافًا للمجموعات السابقة، تحتوي مجموعة بيانات VocalSound على معلومات وصفية مثل عمر المُتحدث، جنسه، اللغة الأم، الدولة، والحالة الصحية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
Vocalsound: مجموعة بيانات لتحسين التعرف على الأصوات البشرية الصوتية | مستندات | HyperAI