HyperAIHyperAI

Command Palette

Search for a command to run...

ويف سبليت: فصل الصوت من الطرف إلى الطرف من خلال تجميع المتكلمين

Neil Zeghidour David Grangier

الملخص

نُقدِّم Wavesplit، نظامًا لفصل المصادر من الطرف إلى الطرف. من خلال مزيج واحد، يستنتج النموذج تمثيلًا لكل مصدر، ثم يُقدّر إشارة كل مصدر بناءً على التمثيلات المستنتجة. يتم تدريب النموذج على أداء المهمتين معًا من خلال الموجة الخام. يستنتج Wavesplit مجموعة من تمثيلات المصادر عبر التجميع، مما يعالج المشكلة الأساسية المتعلقة بالترتيب العشوائي في عملية الفصل. بالنسبة لفصل الكلام، توفر تمثيلات المتكلم على مستوى التسلسل دقة أعلى في فصل الت enregistrements الطويلة والصعبة مقارنةً بالعمل السابق. يُعيد Wavesplit تحديد الحد الأقصى الممكن من الأداء في حالات المزج النظيف مع متحدثين اثنين أو ثلاثة (WSJ0-2/3mix)، وكذلك في البيئات المزروعة بالضوضاء والانعكاسات الصوتية (WHAM/WHAMR). كما نحن نُحدث معيارًا جديدًا على مجموعة بيانات LibriMix الحديثة. وأخيرًا، نُظهر أن Wavesplit يمكن تطبيقه أيضًا في مجالات أخرى، من خلال فصل معدلات ضربات القلب الجنينية وضربات القلب الأمهات من خلال موجة كهربائية واحدة من البطن.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp