HyperAIHyperAI
منذ 17 أيام

طريقة: شبكة انتباه متعددة المقاطع لحذف الضوضاء

Hyun Joon Park, Byung Ha Kang, Wooseok Shin, Jin Sob Kim, Sung Won Han
طريقة: شبكة انتباه متعددة المقاطع لحذف الضوضاء
الملخص

في مجال تحسين الكلام، تواجه الأساليب الزمنية صعوبات في تحقيق الأداء العالي والكفاءة في آنٍ واحد. في الآونة الأخيرة، تم اعتماد النماذج ثنائية المسار لتمثيل السمات التسلسلية الطويلة، لكنها ما زالت تعاني من تمثيل محدود وفعالية ذاكرة ضعيفة. في هذه الدراسة، نقترح شبكة انتباه متعددة الأوجه لاستخلاص الضوضاء (MANNER)، والتي تتألف من مشغل ترميز وفك ترميز متعدد الترددات مع كتلة انتباه متعددة الأوجه، وتُطبَّق على الإشارات الزمنية. تُستخرج MANNER بفعالية ثلاث تمثيلات مختلفة من الكلام المضطرب، وتُقدّر صوتًا نقيًا عالي الجودة. تم تقييم MANNER على مجموعة بيانات VoiceBank-DEMAND من حيث خمسة مقاييس موضوعية لجودة الكلام. أظهرت النتائج التجريبية أن MANNER تحقق أداءً متقدمًا جدًا مع معالجة فعّالة للصوت المضطرب.