HyperAIHyperAI
منذ 12 أيام

ADA-VAD: التكييف التبادلي غير المرتبط للنطاقات للكشف الصوتي عن النشاط المقاوم للضوضاء

{Jong Hwan Ko, Jiho Chang, Taesoo Kim}
ADA-VAD: التكييف التبادلي غير المرتبط للنطاقات للكشف الصوتي عن النشاط المقاوم للضوضاء
الملخص

تُعد كشف نشاط الصوت (VAD) عنصرًا أساسيًا في العديد من أنظمة معالجة الصوت. وبما أن هذه الأنظمة تُDeploy عادةً في بيئات تتسم بأنواع متنوعة من الضوضاء ونسب إشارة إلى ضوضاء منخفضة (SNR)، فإن طريقة VAD الفعّالة يجب أن تكون قادرة على اكتشاف مناطق الصوت بدقة ضمن إشارات خلفية مشوّشة. في هذه الورقة، نقترح طريقة VAD القائمة على التكيف المجالي العدواني (ADA-VAD)، وهي طريقة VAD تعتمد على الشبكة العصبية العميقة (DNN) وتتميز بمقاومة عالية تجاه عينات صوتية مختلفة أنواع الضوضاء ونسب إشارة إلى ضوضاء منخفضة. تقوم الطريقة المقترحة بتدريب نماذج DNN لمهام VAD بطريقة مراقبة. وفي الوقت نفسه، لخفض الانخفاض في الأداء الناتج عن الضوضاء الخلفية، تم اعتماد طريقة التكيف المجالي العدواني لمحاذاة الفجوة بين المجالات بين التدفقات الصوتية المشوّشة والصوتية النظيفة بطريقة غير مراقبة. وقد أظهرت النتائج أن ADA-VAD حققت متوسطًا بنسبة 3.6% و7% أعلى في مقياس AUC مقارنةً بالنماذج التي تم تدريبها باستخدام ميزات مُستخرجة يدويًا على مجموعة بيانات AVA-speech، وعلى قاعدة بيانات صوتية تم توليدُها باستخدام مجموعة ضوضاء غير مرئية، على التوالي.

ADA-VAD: التكييف التبادلي غير المرتبط للنطاقات للكشف الصوتي عن النشاط المقاوم للضوضاء | أحدث الأوراق البحثية | HyperAI