HyperAIHyperAI
منذ 2 أشهر

WHAM!: توسيع فصل الكلام إلى البيئات الصاخبة

Gordon Wichern; Joe Antognini; Michael Flynn; Licheng Richard Zhu; Emmett McQuinn; Dwight Crow; Ethan Manilow; Jonathan Le Roux
WHAM!: توسيع فصل الكلام إلى البيئات الصاخبة
الملخص

التطورات الحديثة في فصل إشارات الكلام من متحدثين متداخلين باستخدام قناة صوتية واحدة قد أوصلتنا إلى حل مشكلة الحفلة الكوكتيل. ومع ذلك، فإن معظم الدراسات في هذا المجال تستخدم تصميمًا مشكلًا مقيدًا، حيث يتم مقارنة الأداء عندما يتقاطع المتحدثون تقريبًا بشكل كامل، وفي معدلات عينة اصطناعية منخفضة، ولأجل عدم وجود ضوضاء خلفية خارجية. في هذه الورقة البحثية، نسعى إلى توجيه المجال نحو سيناريوهات أكثر واقعية وتحديًا. لهذا الغرض، قمنا بإنشاء مجموعة بيانات WSJ0 Hipster Ambient Mixtures (WHAM!) والتي تتكون من مزيج لاثنين من المتحدثين من مجموعة بيانات wsj0-2mix مع عينات ضوضاء حقيقية محيطة. تم جمع العينات في المقاهي والمطاعم والبارات في منطقة خليج سان فرانسيسكو، وهي متاحة للجمهور بشكل عام. نقوم بقياس أداء مختلف هياكل فصل الكلام والوظائف الهدف لتقييم قدرتها على مقاومة الضوضاء. رغم أن أداء الفصل ينخفض نتيجة الضوضاء، إلا أننا ما زلنا نلاحظ مكاسب كبيرة نسبيًا بالنسبة للإشارات الصوتية الملوثة بالضوضاء لمعظم الأساليب المستخدمة.