HyperAIHyperAI

Command Palette

Search for a command to run...

TasNet: شبكة فصل الصوت في المجال الزمني لفصل الكلام في الوقت الحقيقي من قناة واحدة

Yi Luo; Nima Mesgarani

الملخص

معالجة الكلام القوية في بيئات متعددة المتحدثين تتطلب فصل الكلام بشكل فعال. لقد أحرزت الأنظمة الحديثة المستندة إلى التعلم العميق تقدماً كبيراً نحو حل هذه المشكلة، ومع ذلك لا تزال تمثل تحدياً خاصة في التطبيقات ذات الوقت الفعلي والتأخير القصير. تحاول معظم الطرق بناء قناع لكل مصدر في التمثيل الزمني-الترددي للإشارة المختلطة، وهو تمثيل قد لا يكون مثالياً لفصل الكلام. بالإضافة إلى ذلك، فإن تحليل الزمن-التردد يؤدي إلى مشكلات جوهرية مثل انفصال الطور/الحجم وطول النافذة الزمنية الذي يتعين تحقيقه للحصول على دقة ترددية كافية. نقترح شبكة فصل الصوت في المجال الزمني (TasNet) للتغلب على هذه القيود. نقوم بنمذجة الإشارة مباشرة في المجال الزمني باستخدام إطار مُشفِّر-مُفكِّك التشفير ونقوم بفصل المصادر على مخرجات المُشفِّر غير السالبة. هذا الأسلوب يزيل خطوة تحليل التردد ويقلل من مشكلة الفصل إلى تقدير قناعات المصادر على مخرجات المُشفِّر التي يتم بعد ذلك تركيبها بواسطة المُفكِّك. نظامنا يتفوق على خوارزميات فصل الكلام الحالية الأكثر تقدماً سواء كانت سببية أو غير سببية، ويقلل من تكلفة الحساب لفصل الكلام، ويخفض بشكل كبير الحد الأدنى للتأخير المطلوب للمخرجات. هذا يجعل شبكة TasNet مناسبة للتطبيقات التي يُفضل فيها التنفيذ ذو الطاقة المنخفضة والوقت الفعلي مثل الأجهزة القابلة للارتداء وأجهزة الاتصالات الهاتفية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
TasNet: شبكة فصل الصوت في المجال الزمني لفصل الكلام في الوقت الحقيقي من قناة واحدة | مستندات | HyperAI