PrimeK-Net: تعلم طيفي متعدد المقاييس من خلال الشبكات العصبية التلافيفية المجموعة ذات النواة الأولية من الدرجة K لتحسين الكلام من قناة واحدة

تُعدّ مُعالجة الصوت أحادي القناة مشكلة صعبة وغير محددة بشكل جيد، وتتمحور حول تقدير الصوت النقي من الإشارات المعوّجة. وقد أظهرت الدراسات الحالية الأداء التنافسي لدمج الشبكات العصبية التلافيفية (CNNs) مع نماذج Transformers في مهام معالجة الصوت. ومع ذلك، لم تُعالج الإطارات الحالية بشكل كافٍ الكفاءة الحسابية، كما أنها تجاهلت التوزيع الطبيعي متعدد المقياسات في الطيف. علاوةً على ذلك، لم تُستغل إمكانات الشبكات العصبية التلافيفية في معالجة الصوت إلى أقصى حد. ولحل هذه المشكلات، تُقدّم هذه الدراسة كتلة عميقة منفصلة ذات تمدد (DSDDB) ووحدة انتباه قناة تغذية أمامية بمقاسات أولية مجموعية (GPFCA). وبشكل خاص، تُدخل DSDDB كفاءة أعلى من حيث عدد المُعاملات والحسابات إلى وحدات الترميز/إعادة الترميز في الإطارات الحالية. بينما تُحلّ GPFCA محل موقع Conformer، حيث تستخرج ميزات زمنية وترددية عميقة للطيف بتعقيد خطي. وتستفيد GPFCA من الشبكة التغذوية أمامية ذات مقاسات أولية مجموعية المُقترحة (GPFN) لدمج مجالات استقبال طويلة المدى، وطويلة المتوسطة، وقصيرة المدى متعددة الدقة، مع الاستفادة من خصائص الأعداد الأولية لتفادي ظاهرة التداخل الدورية. وأظهرت النتائج التجريبية أن PrimeK-Net، التي تم اقتراحها في هذه الدراسة، تحقق أداءً من الدرجة الأولى (SOTA) على مجموعة بيانات VoiceBank+Demand، حيث بلغت درجة PESQ 3.61 باستخدام 1.41 مليون معلمة فقط.