aTENNate: تحسين الكلام في الوقت الفعلي المُحسَّن باستخدام النماذج العميقة SSM على الصوت الخام

نقدم aTENNuate، وهو مُشفِّر فضائي عميق بسيط مُعدٌ لتحسين الكلام الخام بكفاءة في الوقت الفعلي وبطريقة شاملة من البداية إلى النهاية (end-to-end). يتم تقييم أداء الشبكة بشكل رئيسي في تحسين الكلام الخام من الضوضاء، مع إجراء تقييمات إضافية على مهام مثل زيادة الدقة (super-resolution) وإزالة التكميم (de-quantization). نقوم بمقارنة aTENNate باستخدام مجموعات الاختبار الصوتية المصنعة VoiceBank + DEMAND و Microsoft DNS1. تتفوق الشبكة على نماذج التنقية السابقة في الوقت الفعلي من حيث درجة PESQ، عدد المعلمات، العمليات الحسابية (MACs)، والتأخير (latency). وحتى كنموذج لمعالجة الموجة الصوتية الخام، يحافظ النموذج على دقة عالية للإشارة النظيفة مع حد أدنى من التشوهات السمعية. بالإضافة إلى ذلك، يظل النموذج فعالًا حتى عند ضغط الإدخال الضوضائي إلى 4000 هرتز و4 بت، مما يشير إلى قدراته في تحسين الكلام في بيئات ذات موارد محدودة. يمكن تجربته عن طريق تركيب حزمة attenuate عبر pip.