HyperAIHyperAI

Command Palette

Search for a command to run...

PrimeK-Net: تعلم طيفي متعدد المقاييس من خلال الشبكات العصبية التلافيفية المجموعة ذات النواة الأولية من الدرجة K لتحسين الكلام من قناة واحدة

Zizhen Lin Junyu Wang Ruili Li Fei Shen Xi Xuan

الملخص

تُعدّ مُعالجة الصوت أحادي القناة مشكلة صعبة وغير محددة بشكل جيد، وتتمحور حول تقدير الصوت النقي من الإشارات المعوّجة. وقد أظهرت الدراسات الحالية الأداء التنافسي لدمج الشبكات العصبية التلافيفية (CNNs) مع نماذج Transformers في مهام معالجة الصوت. ومع ذلك، لم تُعالج الإطارات الحالية بشكل كافٍ الكفاءة الحسابية، كما أنها تجاهلت التوزيع الطبيعي متعدد المقياسات في الطيف. علاوةً على ذلك، لم تُستغل إمكانات الشبكات العصبية التلافيفية في معالجة الصوت إلى أقصى حد. ولحل هذه المشكلات، تُقدّم هذه الدراسة كتلة عميقة منفصلة ذات تمدد (DSDDB) ووحدة انتباه قناة تغذية أمامية بمقاسات أولية مجموعية (GPFCA). وبشكل خاص، تُدخل DSDDB كفاءة أعلى من حيث عدد المُعاملات والحسابات إلى وحدات الترميز/إعادة الترميز في الإطارات الحالية. بينما تُحلّ GPFCA محل موقع Conformer، حيث تستخرج ميزات زمنية وترددية عميقة للطيف بتعقيد خطي. وتستفيد GPFCA من الشبكة التغذوية أمامية ذات مقاسات أولية مجموعية المُقترحة (GPFN) لدمج مجالات استقبال طويلة المدى، وطويلة المتوسطة، وقصيرة المدى متعددة الدقة، مع الاستفادة من خصائص الأعداد الأولية لتفادي ظاهرة التداخل الدورية. وأظهرت النتائج التجريبية أن PrimeK-Net، التي تم اقتراحها في هذه الدراسة، تحقق أداءً من الدرجة الأولى (SOTA) على مجموعة بيانات VoiceBank+Demand، حيث بلغت درجة PESQ 3.61 باستخدام 1.41 مليون معلمة فقط.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp