منذ 6 أشهر

الملخص

تم تحقيق تحسين الكلام في البيئات متعددة القنوات من خلال استغلال المعلومات المكانية المضمنة في إشارات الميكروفونات المتعددة. بالإضافة إلى ذلك، تطورت الشبكات العصبية العميقة (DNNs) مؤخرًا في هذا المجال؛ ومع ذلك، لا تزال الدراسات المتعلقة ببنية الشبكة متعددة القنوات الفعالة التي تستغل بالكامل المعلومات المكانية والعلاقات بين القنوات في مراحلها المبكرة. في هذه الدراسة، نقترح شبكة تحسين للصوت في المجال الزمني تعمل بشكل نهائياً (end-to-end) يمكنها تسهيل استغلال العلاقات بين القنوات في الطبقات الفردية للشبكة العصبية العميقة. تعتمد التقنية المقترحة على شبكة فصل الصوت في المجال الزمني ذات التحويل الكامل (Conv-TasNet)، التي تم تطويرها أصلاً لمهام فصل الكلام. ونُمّد Conv-TasNet إلى عدة أشكال قادرة على معالجة الإشارات المدخلة متعددة القنوات وتعلم العلاقات بينها. ولتحقيق ذلك، قمنا بتعديل هيكل المُشفر-القناع-المُفكك (encoder-mask-decoder) للشبكة ليكون متوافقًا مع التنسورات الثلاثية الأبعاد المعرفة على المحاور المكانية، والسمات، والزمن. وبشكل خاص، أجرينا تحليلًا واسعًا للبارامترات في هيكل التحويل، واقترحنا تعيينًا منفصلًا لطبقات التحويل العميقي (depthwise) والتحويل 1×1 إلى المحورين السماتي والمكانية على التوالي. ونُظهر أن المعلومات المكانية المُمَدَّدة التي توفرها الشبكة المقترحة تؤدي دورًا محوريًا في كبح الإشارات الضوضائية القادمة من اتجاهات مختلفة. وتفوق الشبكة المقترحة (inter-channel Conv-TasNet) على أحدث النماذج متعددة القنوات للشبكات العصبية، حتى مع حجم معلمات يُعادل عُشر حجمها. وقد تم تقييم أداء النموذج المقترح باستخدام مجموعة بيانات CHiME-3، التي أظهرت تحسنًا ملحوظًا في مؤشرات SDR وPESQ وSTOI.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Dongheon Lee Seongrae Kim Jung-Woo Choi

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Dongheon Lee Seongrae Kim Jung-Woo Choi

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Dongheon Lee Seongrae Kim Jung-Woo Choi

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

Conv-TasNet متعدد القنوات للتحسين الصوتي متعدد القنوات

Dongheon Lee Seongrae Kim Jung-Woo Choi

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

Conv-TasNet متعدد القنوات للتحسين الصوتي متعدد القنوات

Dongheon Lee Seongrae Kim Jung-Woo Choi

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

Conv-TasNet متعدد القنوات للتحسين الصوتي متعدد القنوات

Dongheon Lee Seongrae Kim Jung-Woo Choi

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters