HyperAIHyperAI

Command Palette

Search for a command to run...

Sandglasset: شبكة ذات انتباه ذاتي متعددة الحُدود خفيفة الوزن لفصل الصوت في المجال الزمني

Max W. Y. Lam Jun Wang Dan Su Dong Yu

الملخص

أحد النماذج الرائدة في فصل الصوت أحادي القناة (SS) يعتمد على نموذج TasNet مع تقنية تقسيم مزدوجة المسار، حيث يبقى حجم كل قطعة ثابتًا عبر جميع الطبقات. في المقابل، يكمن اكتشافنا الرئيسي في أن السمات متعددة الحجمات ضرورية لتحسين نمذجة السياق وكفاءة الحوسبة. نحن نقدم شبكة ذات انتباه ذاتي ببنية مميزة على شكل قارورة رملية، تُسمى Sandglasset، التي تُحدث تقدمًا في أداء فصل الصوت (SOTA) بحجم نموذج أصغر بشكل كبير وتكاليف حوسبة أقل. عند التقدم عبر كل كتلة داخل Sandglasset، تصبح دقة السمات الزمنية تدريجيًا أقل حدة حتى تصل إلى نصف عدد طبقات الشبكة، ثم تصبح تدريجيًا أكثر دقة تجاه مستوى الإشارة الأصلية. كما نوضح أن الاتصالات المتبقية بين السمات ذات نفس الدقة حاسمة في الحفاظ على المعلومات بعد المرور عبر الطبقة الضيقة (bottleneck). تُظهر التجارب أن نموذج Sandglasset، الذي يحتوي فقط على 2.3 مليون معلمة، حقق أفضل النتائج على مجموعتي بيانات معيارتين لفصل الصوت – WSJ0-2mix وWSJ0-3mix، حيث ارتفع متوسط مؤشر جودة الصوت المحسّن (SI-SNRi) بنسبة 0.8 ديسيبل و2.4 ديسيبل على التوالي مقارنةً بالنتائج السابقة الأفضل (SOTA).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
Sandglasset: شبكة ذات انتباه ذاتي متعددة الحُدود خفيفة الوزن لفصل الصوت في المجال الزمني | مستندات | HyperAI