ويف سبليت: فصل الصوت من الطرف إلى الطرف من خلال تجميع المتكلمين

نُقدِّم Wavesplit، نظامًا لفصل المصادر من الطرف إلى الطرف. من خلال مزيج واحد، يستنتج النموذج تمثيلًا لكل مصدر، ثم يُقدّر إشارة كل مصدر بناءً على التمثيلات المستنتجة. يتم تدريب النموذج على أداء المهمتين معًا من خلال الموجة الخام. يستنتج Wavesplit مجموعة من تمثيلات المصادر عبر التجميع، مما يعالج المشكلة الأساسية المتعلقة بالترتيب العشوائي في عملية الفصل. بالنسبة لفصل الكلام، توفر تمثيلات المتكلم على مستوى التسلسل دقة أعلى في فصل الت enregistrements الطويلة والصعبة مقارنةً بالعمل السابق. يُعيد Wavesplit تحديد الحد الأقصى الممكن من الأداء في حالات المزج النظيف مع متحدثين اثنين أو ثلاثة (WSJ0-2/3mix)، وكذلك في البيئات المزروعة بالضوضاء والانعكاسات الصوتية (WHAM/WHAMR). كما نحن نُحدث معيارًا جديدًا على مجموعة بيانات LibriMix الحديثة. وأخيرًا، نُظهر أن Wavesplit يمكن تطبيقه أيضًا في مجالات أخرى، من خلال فصل معدلات ضربات القلب الجنينية وضربات القلب الأمهات من خلال موجة كهربائية واحدة من البطن.