تحسين الكلام الأحادي الأذن باستخدام وحدة الانتباه التلافيفية المركبة ووظائف خسارة زمنية ترددية مشتركة

تحقيق بنية U-Net العميقة المعقدة وبنية الشبكة التكرارية التلافيفية (CRN) أداءً متقدمًا في مجال تحسين الكلام الأحادي القناة. وتمثّل كل من بنية U-Net العميقة المعقدة وبنية CRN هيكلين مُشفِّرين ومُفكِّكين يحتويان على روابط تجاوزية (skip connections)، وتستند بشكل كبير إلى قدرة التمثيل الخاصة بطبقات التلافيف ذات القيم المعقدة. في هذه الورقة، نقترح وحدة انتباه مُكونة من كتل تلافيفية معقدة (CCBAM) لتعزيز قدرة التمثيل في الطبقات التلافيفية ذات القيم المعقدة من خلال بناء ميزات أكثر إفادة. تُعد CCBAM وحدة خفيفة الوزن وعامة يمكن دمجها بسهولة في أي طبقة تلافيفية ذات قيم معقدة. وقد قمنا بدمج CCBAM مع بنية U-Net العميقة المعقدة وبنية CRN لتحسين أدائهم في تحسين الكلام. كما قمنا بتطوير دالة خسارة مختلطة لتحسين النماذج المعقدة بشكل مشترك في مجال الزمن-التردد (TF) وفي مجال الزمن. وبدمج CCBAM مع دالة الخسارة المختلطة، تم إنشاء إطار جديد متكامل من الطرف إلى الطرف (E2E) لتحسين الكلام المعقد. وأظهرت تجارب التحليل (Ablation Experiments) والتقييمات الموضوعية أداءً متميزًا للنهج المقترحة (https://github.com/modelscope/ClearerVoice-Studio).