HyperAIHyperAI

Command Palette

Search for a command to run...

aTENNate: تحسين الكلام في الوقت الفعلي المُحسَّن باستخدام النماذج العميقة SSM على الصوت الخام

Yan Ru Pei Ritik Shrivastava FNU Sidharth

الملخص

نقدم aTENNuate، وهو مُشفِّر فضائي عميق بسيط مُعدٌ لتحسين الكلام الخام بكفاءة في الوقت الفعلي وبطريقة شاملة من البداية إلى النهاية (end-to-end). يتم تقييم أداء الشبكة بشكل رئيسي في تحسين الكلام الخام من الضوضاء، مع إجراء تقييمات إضافية على مهام مثل زيادة الدقة (super-resolution) وإزالة التكميم (de-quantization). نقوم بمقارنة aTENNate باستخدام مجموعات الاختبار الصوتية المصنعة VoiceBank + DEMAND و Microsoft DNS1. تتفوق الشبكة على نماذج التنقية السابقة في الوقت الفعلي من حيث درجة PESQ، عدد المعلمات، العمليات الحسابية (MACs)، والتأخير (latency). وحتى كنموذج لمعالجة الموجة الصوتية الخام، يحافظ النموذج على دقة عالية للإشارة النظيفة مع حد أدنى من التشوهات السمعية. بالإضافة إلى ذلك، يظل النموذج فعالًا حتى عند ضغط الإدخال الضوضائي إلى 4000 هرتز و4 بت، مما يشير إلى قدراته في تحسين الكلام في بيئات ذات موارد محدودة. يمكن تجربته عن طريق تركيب حزمة attenuate عبر pip.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp