HyperAIHyperAI

Command Palette

Search for a command to run...

Conv-TasNet متعدد القنوات للتحسين الصوتي متعدد القنوات

Dongheon Lee Seongrae Kim Jung-Woo Choi

الملخص

تم تحقيق تحسين الكلام في البيئات متعددة القنوات من خلال استغلال المعلومات المكانية المضمنة في إشارات الميكروفونات المتعددة. بالإضافة إلى ذلك، تطورت الشبكات العصبية العميقة (DNNs) مؤخرًا في هذا المجال؛ ومع ذلك، لا تزال الدراسات المتعلقة ببنية الشبكة متعددة القنوات الفعالة التي تستغل بالكامل المعلومات المكانية والعلاقات بين القنوات في مراحلها المبكرة. في هذه الدراسة، نقترح شبكة تحسين للصوت في المجال الزمني تعمل بشكل نهائياً (end-to-end) يمكنها تسهيل استغلال العلاقات بين القنوات في الطبقات الفردية للشبكة العصبية العميقة. تعتمد التقنية المقترحة على شبكة فصل الصوت في المجال الزمني ذات التحويل الكامل (Conv-TasNet)، التي تم تطويرها أصلاً لمهام فصل الكلام. ونُمّد Conv-TasNet إلى عدة أشكال قادرة على معالجة الإشارات المدخلة متعددة القنوات وتعلم العلاقات بينها. ولتحقيق ذلك، قمنا بتعديل هيكل المُشفر-القناع-المُفكك (encoder-mask-decoder) للشبكة ليكون متوافقًا مع التنسورات الثلاثية الأبعاد المعرفة على المحاور المكانية، والسمات، والزمن. وبشكل خاص، أجرينا تحليلًا واسعًا للبارامترات في هيكل التحويل، واقترحنا تعيينًا منفصلًا لطبقات التحويل العميقي (depthwise) والتحويل 1×1 إلى المحورين السماتي والمكانية على التوالي. ونُظهر أن المعلومات المكانية المُمَدَّدة التي توفرها الشبكة المقترحة تؤدي دورًا محوريًا في كبح الإشارات الضوضائية القادمة من اتجاهات مختلفة. وتفوق الشبكة المقترحة (inter-channel Conv-TasNet) على أحدث النماذج متعددة القنوات للشبكات العصبية، حتى مع حجم معلمات يُعادل عُشر حجمها. وقد تم تقييم أداء النموذج المقترح باستخدام مجموعة بيانات CHiME-3، التي أظهرت تحسنًا ملحوظًا في مؤشرات SDR وPESQ وSTOI.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp