HyperAIHyperAI

Command Palette

Search for a command to run...

استكشاف أفضل دالة خسارة لتحسين الصوت منخفض التأخير القائم على الشبكات العصبية العميقة باستخدام الشبكات الت(Convolutional Networks) الزمنية

Yuichiro Koyama Tyler Vuong Stefan Uhlich Bhiksha Raj

الملخص

في الآونة الأخيرة، تم استخدام الشبكات العصبية العميقة (DNNs) بنجاح في تحسين الصوت، وتشكل طرق تحسين الصوت القائمة على الشبكات العصبية العميقة مجالًا بحثيًا جذابًا. وعلى الرغم من أن أساليب التصفية الزمنية-الترددية المستندة إلى التحويل فورييه القصير الأجل (STFT) كانت مُستخدمة على نطاق واسع في تحسين الصوت القائم على DNN خلال السنوات الماضية، إلا أن الأساليب الزمنية مثل شبكة فصل الصوت الزمنية (TasNet) قد تم أيضًا اقتراحها. ويعتمد الاختيار الأمثل للطريقة على حجم مجموعة البيانات ونوع المهمة. في هذه الورقة، نستعرض أفضل خوارزمية لتحسين الصوت على مجموعتين بيانات مختلفتين. نقترح طريقة تعتمد على STFT ووظيفة خسارة تستخدم ميزات مشفرة للصوت المجردة من المشكلة (PASE) لتحسين الجودة الذاتية في حالة مجموعة البيانات الأصغر. وتبين النتائج فعالية الأساليب المقترحة على مجموعة بيانات Voice Bank + DEMAND، وتتفوق على طرق حديثة أخرى متميزة. كما قمنا بتنفيذ نسخة منخفضة التأخير من TasNet، والتي قدمناها في مسابقة DNS، وجعلناها متاحة للجمهور من خلال فتح المصدر. ويُظهر نموذجنا أداءً ممتازًا على مجموعة بيانات مسابقة DNS.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
استكشاف أفضل دالة خسارة لتحسين الصوت منخفض التأخير القائم على الشبكات العصبية العميقة باستخدام الشبكات الت(Convolutional Networks) الزمنية | مستندات | HyperAI