HyperAIHyperAI

Command Palette

Search for a command to run...

WHAM!: توسيع فصل الكلام إلى البيئات الصاخبة

Gordon Wichern¹, Joe Antognini², Michael Flynn², Licheng Richard Zhu², Emmett McQuinn², Dwight Crow², Ethan Manilow¹, Jonathan Le Roux¹

الملخص

التطورات الحديثة في فصل إشارات الكلام من متحدثين متداخلين باستخدام قناة صوتية واحدة قد أوصلتنا إلى حل مشكلة الحفلة الكوكتيل. ومع ذلك، فإن معظم الدراسات في هذا المجال تستخدم تصميمًا مشكلًا مقيدًا، حيث يتم مقارنة الأداء عندما يتقاطع المتحدثون تقريبًا بشكل كامل، وفي معدلات عينة اصطناعية منخفضة، ولأجل عدم وجود ضوضاء خلفية خارجية. في هذه الورقة البحثية، نسعى إلى توجيه المجال نحو سيناريوهات أكثر واقعية وتحديًا. لهذا الغرض، قمنا بإنشاء مجموعة بيانات WSJ0 Hipster Ambient Mixtures (WHAM!) والتي تتكون من مزيج لاثنين من المتحدثين من مجموعة بيانات wsj0-2mix مع عينات ضوضاء حقيقية محيطة. تم جمع العينات في المقاهي والمطاعم والبارات في منطقة خليج سان فرانسيسكو، وهي متاحة للجمهور بشكل عام. نقوم بقياس أداء مختلف هياكل فصل الكلام والوظائف الهدف لتقييم قدرتها على مقاومة الضوضاء. رغم أن أداء الفصل ينخفض نتيجة الضوضاء، إلا أننا ما زلنا نلاحظ مكاسب كبيرة نسبيًا بالنسبة للإشارات الصوتية الملوثة بالضوضاء لمعظم الأساليب المستخدمة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
WHAM!: توسيع فصل الكلام إلى البيئات الصاخبة | مستندات | HyperAI