HyperAIHyperAI
منذ 17 أيام

Conv-TasNet متعدد القنوات للتحسين الصوتي متعدد القنوات

Dongheon Lee, Seongrae Kim, Jung-Woo Choi
Conv-TasNet متعدد القنوات للتحسين الصوتي متعدد القنوات
الملخص

تم تحقيق تحسين الكلام في البيئات متعددة القنوات من خلال استغلال المعلومات المكانية المضمنة في إشارات الميكروفونات المتعددة. بالإضافة إلى ذلك، تطورت الشبكات العصبية العميقة (DNNs) مؤخرًا في هذا المجال؛ ومع ذلك، لا تزال الدراسات المتعلقة ببنية الشبكة متعددة القنوات الفعالة التي تستغل بالكامل المعلومات المكانية والعلاقات بين القنوات في مراحلها المبكرة. في هذه الدراسة، نقترح شبكة تحسين للصوت في المجال الزمني تعمل بشكل نهائياً (end-to-end) يمكنها تسهيل استغلال العلاقات بين القنوات في الطبقات الفردية للشبكة العصبية العميقة. تعتمد التقنية المقترحة على شبكة فصل الصوت في المجال الزمني ذات التحويل الكامل (Conv-TasNet)، التي تم تطويرها أصلاً لمهام فصل الكلام. ونُمّد Conv-TasNet إلى عدة أشكال قادرة على معالجة الإشارات المدخلة متعددة القنوات وتعلم العلاقات بينها. ولتحقيق ذلك، قمنا بتعديل هيكل المُشفر-القناع-المُفكك (encoder-mask-decoder) للشبكة ليكون متوافقًا مع التنسورات الثلاثية الأبعاد المعرفة على المحاور المكانية، والسمات، والزمن. وبشكل خاص، أجرينا تحليلًا واسعًا للبارامترات في هيكل التحويل، واقترحنا تعيينًا منفصلًا لطبقات التحويل العميقي (depthwise) والتحويل 1×1 إلى المحورين السماتي والمكانية على التوالي. ونُظهر أن المعلومات المكانية المُمَدَّدة التي توفرها الشبكة المقترحة تؤدي دورًا محوريًا في كبح الإشارات الضوضائية القادمة من اتجاهات مختلفة. وتفوق الشبكة المقترحة (inter-channel Conv-TasNet) على أحدث النماذج متعددة القنوات للشبكات العصبية، حتى مع حجم معلمات يُعادل عُشر حجمها. وقد تم تقييم أداء النموذج المقترح باستخدام مجموعة بيانات CHiME-3، التي أظهرت تحسنًا ملحوظًا في مؤشرات SDR وPESQ وSTOI.

Conv-TasNet متعدد القنوات للتحسين الصوتي متعدد القنوات | أحدث الأوراق البحثية | HyperAI