Sandglasset: شبكة ذات انتباه ذاتي متعددة الحُدود خفيفة الوزن لفصل الصوت في المجال الزمني

أحد النماذج الرائدة في فصل الصوت أحادي القناة (SS) يعتمد على نموذج TasNet مع تقنية تقسيم مزدوجة المسار، حيث يبقى حجم كل قطعة ثابتًا عبر جميع الطبقات. في المقابل، يكمن اكتشافنا الرئيسي في أن السمات متعددة الحجمات ضرورية لتحسين نمذجة السياق وكفاءة الحوسبة. نحن نقدم شبكة ذات انتباه ذاتي ببنية مميزة على شكل قارورة رملية، تُسمى Sandglasset، التي تُحدث تقدمًا في أداء فصل الصوت (SOTA) بحجم نموذج أصغر بشكل كبير وتكاليف حوسبة أقل. عند التقدم عبر كل كتلة داخل Sandglasset، تصبح دقة السمات الزمنية تدريجيًا أقل حدة حتى تصل إلى نصف عدد طبقات الشبكة، ثم تصبح تدريجيًا أكثر دقة تجاه مستوى الإشارة الأصلية. كما نوضح أن الاتصالات المتبقية بين السمات ذات نفس الدقة حاسمة في الحفاظ على المعلومات بعد المرور عبر الطبقة الضيقة (bottleneck). تُظهر التجارب أن نموذج Sandglasset، الذي يحتوي فقط على 2.3 مليون معلمة، حقق أفضل النتائج على مجموعتي بيانات معيارتين لفصل الصوت – WSJ0-2mix وWSJ0-3mix، حيث ارتفع متوسط مؤشر جودة الصوت المحسّن (SI-SNRi) بنسبة 0.8 ديسيبل و2.4 ديسيبل على التوالي مقارنةً بالنتائج السابقة الأفضل (SOTA).