HyperAIHyperAI
منذ 17 أيام

روز: إطار تحسين الكلام موجه للتمييز في تحكم الحركة الجوية باستخدام التعلم متعدد الأهداف

Xincheng Yu, Dongyue Guo, Jianwei Zhang, Yi Lin
روز: إطار تحسين الكلام موجه للتمييز في تحكم الحركة الجوية باستخدام التعلم متعدد الأهداف
الملخص

يُعدّ ارتداد الصوت في البث الإذاعي ظاهرة محددة في مجال التحكم في الحركة الجوية (ATC)، حيث يُضعف جودة الصوت ويؤثر بدوره سلبًا على دقة التعرف التلقائي على الكلام (ASR). في هذه الدراسة، تم اقتراح إطار عمل تحسين الكلام موجه للتمييز الزمني (ROSE) يعتمد على هيكل U-Net القائم على الترميز التوافقي-الإعادة الترميزية، بهدف تحسين وضوح الكلام وتعزيز دقة التعرف التلقائي على الكلام، ويُعدّ أداة قابلة للتركيب والتشغيل الفوري في سيناريوهات التحكم في الحركة الجوية دون الحاجة إلى إعادة تدريب نموذج التعرف على الكلام. وبالتحديد: 1) في بنية U-Net، تم تطبيق وحدة دمج مدعومة بالانتباه (ABSF) لاستخلاص الميزات المشتركة من المُشفِّرات باستخدام قناع انتباه، مما يمكّن النموذج من دمج فعّال للميزات الهرمية. 2) تم تصميم وحدة انتباه القناة والمتتالية (CSAtt) بشكل مبتكر لتوجيه النموذج لتركيز انتباهه على الميزات المفيدة عبر طريقتين متوازيتين للانتباه، بهدف تعزيز التمثيلات الفعّالة وقمع الضوضاء التداخلية. 3) استنادًا إلى الميزات المُصممة يدويًا، تم وضع أهداف تحسين موجهة نحو التعرف على الكلام بهدف تحسين الأداء في بيئة التحكم في الحركة الجوية من خلال تعلّم تمثيلات ميزات قوية. وباستخدام خسائر موجهة نحو تحسين الصوت (SE) والخسائر الموجهة نحو التعرف على الكلام (ASR) معًا، تم تنفيذ ROSE بطريقة تعلم متعددة الأهداف من خلال تحسين التمثيلات المشتركة عبر الهدفين المتعارضين. أظهرت النتائج التجريبية أن ROSE يتفوق بشكل ملحوظ على الطرق الرائدة الأخرى من حيث كلا المهمتين (تحسين الصوت والاعتراف التلقائي بالكلام)، حيث تم تأكيد جميع التحسينات المقترحة من خلال تجارب مصممة خصيصًا. علاوةً على ذلك، يمكن للنهج المقترح أن يسهم في تحقيق تحسينات أداء مرغوبة على مجموعات بيانات عامة.