Vocalsound: مجموعة بيانات لتحسين التعرف على الأصوات البشرية الصوتية

تمييز الصوتيات البشرية غير اللغوية يُعد مهمة مهمة ولها تطبيقات واسعة مثل الترجمة الصوتية التلقائية ورصد حالة الصحة. ومع ذلك، فإن المجموعات البيانات الحالية تحتوي على عدد محدود نسبيًا من عينات الصوت الصوتي أو تمتلك تسميات مشوهة. ونتيجة لذلك، قد لا تؤدي النماذج الحديثة لتصنيف الأحداث الصوتية إلى أداء جيد في كشف الصوتيات البشرية. ولدعم الأبحاث المتعلقة ببناء نماذج قادرة على التعرف على الصوتيات بدقة وثبات، قمنا بإنشاء مجموعة بيانات تُسمى VocalSound، تتضمن أكثر من 21,000 تسجيلاً تم جمعها من جمهور، تشمل ضحكات، وتنفسات عميقة، وسعال، وتنفيس الحنجرة، وعطس، وتنفيس الأنف، من 3,365 فردًا فريدًا. أظهرت التجارب أن أداء نموذج التعرف على الصوتيات يمكن تحسينه بشكل كبير بنسبة 41.9% من خلال إضافة مجموعة بيانات VocalSound كمواد تدريبية إلى مجموعة بيانات موجودة. بالإضافة إلى ذلك، وخلافًا للمجموعات السابقة، تحتوي مجموعة بيانات VocalSound على معلومات وصفية مثل عمر المُتحدث، جنسه، اللغة الأم، الدولة، والحالة الصحية.