HyperAIHyperAI

Command Palette

Search for a command to run...

DCCRN: شبكة عميقة معقدة ل convolution والدورة لتحسين الصوت المعتمد على الطور

Yanxin Hu Yun Liu Shubo Lv Mengtao Xing Shimin Zhang Yihui Fu Jian Wu Bihong Zhang Lei Xie

الملخص

لقد استفادت معالجة الكلام من نجاح التعلم العميق من حيث الوضوح والجودة الإدراكية. تركز الطرق التقليدية في مجال الزمن-التردد (TF) على توقع أقنعة TF أو الطيف الصوتي، باستخدام شبكة عصبية تلافيفية بسيطة (CNN) أو شبكة عصبية متكررة (RNN). وتشير بعض الدراسات الحديثة إلى استخدام الطيف المعقد كهدف للتدريب، لكنها تُدرّب في شبكة حقيقية، وتتنبأ بمركبة المقدار والطور أو الجزء الحقيقي والجزء التخيلي على التوالي. وبشكل خاص، يدمج الشبكة التلافيفية المتكررة (CRN) هيكلًا مكوّنًا من مشغل تشفير-فك تشفير تلافيفي (CED) وذاكرة طويلة قصيرة الأجل (LSTM)، والذي ثبت أنه مفيد جدًا للتعامل مع الأهداف المعقدة. ولتمكين التدريب على الهدف المعقد بشكل أكثر فعالية، قمنا في هذه الورقة بتصميم هيكل شبكة جديد يحاكي العمليات العقدية، يُسمى الشبكة التلافيفية المتكررة العميقة المعقدة (DCCRN)، حيث يمكن لكل من الهياكل التلافيفية (CNN) والمتكررة (RNN) التعامل مع العمليات المعقدة. وقد أظهرت النماذج المقترحة من DCCRN تفوقًا كبيرًا مقارنة بالشبكات السابقة، سواء من حيث المقاييس الموضوعية أو الذاتية. وباستخدام فقط 3.7 مليون معلمة، تقدمت نماذج DCCRN الخاصة بنا في مسابقة تثبيط الضوضاء العميقة (DNS) لمؤتمر Interspeech 2020، واحتلت المرتبة الأولى في المسار الزمني الفعلي والمرتبة الثانية في المسار غير الزمني الفعلي من حيث متوسط تقييم الرأي (MOS).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp