HyperAIHyperAI
منذ 17 أيام

DCCRN: شبكة عميقة معقدة ل convolution والدورة لتحسين الصوت المعتمد على الطور

Yanxin Hu, Yun Liu, Shubo Lv, Mengtao Xing, Shimin Zhang, Yihui Fu, Jian Wu, Bihong Zhang, Lei Xie
DCCRN: شبكة عميقة معقدة ل convolution والدورة لتحسين الصوت المعتمد على الطور
الملخص

لقد استفادت معالجة الكلام من نجاح التعلم العميق من حيث الوضوح والجودة الإدراكية. تركز الطرق التقليدية في مجال الزمن-التردد (TF) على توقع أقنعة TF أو الطيف الصوتي، باستخدام شبكة عصبية تلافيفية بسيطة (CNN) أو شبكة عصبية متكررة (RNN). وتشير بعض الدراسات الحديثة إلى استخدام الطيف المعقد كهدف للتدريب، لكنها تُدرّب في شبكة حقيقية، وتتنبأ بمركبة المقدار والطور أو الجزء الحقيقي والجزء التخيلي على التوالي. وبشكل خاص، يدمج الشبكة التلافيفية المتكررة (CRN) هيكلًا مكوّنًا من مشغل تشفير-فك تشفير تلافيفي (CED) وذاكرة طويلة قصيرة الأجل (LSTM)، والذي ثبت أنه مفيد جدًا للتعامل مع الأهداف المعقدة. ولتمكين التدريب على الهدف المعقد بشكل أكثر فعالية، قمنا في هذه الورقة بتصميم هيكل شبكة جديد يحاكي العمليات العقدية، يُسمى الشبكة التلافيفية المتكررة العميقة المعقدة (DCCRN)، حيث يمكن لكل من الهياكل التلافيفية (CNN) والمتكررة (RNN) التعامل مع العمليات المعقدة. وقد أظهرت النماذج المقترحة من DCCRN تفوقًا كبيرًا مقارنة بالشبكات السابقة، سواء من حيث المقاييس الموضوعية أو الذاتية. وباستخدام فقط 3.7 مليون معلمة، تقدمت نماذج DCCRN الخاصة بنا في مسابقة تثبيط الضوضاء العميقة (DNS) لمؤتمر Interspeech 2020، واحتلت المرتبة الأولى في المسار الزمني الفعلي والمرتبة الثانية في المسار غير الزمني الفعلي من حيث متوسط تقييم الرأي (MOS).

DCCRN: شبكة عميقة معقدة ل convolution والدورة لتحسين الصوت المعتمد على الطور | أحدث الأوراق البحثية | HyperAI