HyperAIHyperAI

Command Palette

Search for a command to run...

AERO: تحسين الصوت فائق الدقة في المجال الطيفي

Moshe Mandel Or Tal Yossi Adi

الملخص

نقدم لكم نموذج AERO، وهو نموذج لزيادة دقة الصوت يعالج إشارات الكلام والموسيقى في المجال الطيفي. يستند AERO إلى هندسة مُشفر-مُفكك (Encoder-Decoder) مع اتصالات تخطي مشابهة لهندسة U-Net. نقوم بتحسين النموذج باستخدام دوال خسارة في مجال الزمن ومجال التردد على حد سواء. وبشكل خاص، نأخذ بعين الاعتبار مجموعة من دوال الخسارة لإعادة الإنشاء بالإضافة إلى الخسائر الحسية على شكل دوال تمييز معادية وتمييز الميزات. للتعامل بشكل أفضل مع معلومات الطور، تعمل الطريقة المقترحة على الطيف الطيفي ذي القيمة المركبة باستخدام قنوات منفصلة اثنتين. على عكس الأعمال السابقة التي تركز بشكل أساسي على تركيب الترددات المنخفضة والعالية لزيادة دقة الصوت، فإن الطريقة المقترحة تتنبأ مباشرة بمدى التردد الكامل. نثبت الأداء العالي عبر نطاق واسع من معدلات العينة عند النظر في كل من الكلام والموسيقى. يتفوق AERO على النماذج الأساسية المُقيَّمة عند النظر في المسافة الطيفية اللوغاريتمية (Log-Spectral Distance)، ومؤشر جودة الصوت المرئي (ViSQOL)، واختبار MUSHRA الذاتي. يمكن الوصول إلى عينات الصوت والكود عبر الرابط https://pages.cs.huji.ac.il/adiyoss-lab/aero


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp