HyperAIHyperAI
منذ 2 أشهر

تحليل مجال الاستقبال للشبكات التلافيفية الزمنية لإزالة الصدى من الكلام الأحادي القناة

William Ravenscroft; Stefan Goetze; Thomas Hain
تحليل مجال الاستقبال للشبكات التلافيفية الزمنية لإزالة الصدى من الكلام الأحادي القناة
الملخص

إزالة الأصداء من الكلام غالبًا ما تكون متطلبًا مهمًا في مهام معالجة الكلام المتينة. تقدم نماذج التعلم العميق المشرف عليها (DL) أداءً يمثل الحالة الفنية الأكثر تقدمًا لإزالة الأصداء من القنوات الواحدة للكلام. يتم استخدام شبكات الvolution الزمنية (TCNs) بشكل شائع لنمذجة التسلسلات في مهام تعزيز الكلام. إحدى خصائص شبكات الvolution الزمنية هو أنها لديها مجال استقبال (RF) يعتمد على تكوين النموذج المحدد، والذي يحدد عدد الإطارات الدخلية التي يمكن رصدها لإنتاج إطار خرج فردي. لقد تم إثبات أن شبكات الvolution الزمنية قادرة على إزالة الأصداء من بيانات كلام محاكاة، ومع ذلك فإن التحليل الشامل، خاصة مع التركيز على المجال الاستقبالي، لا يزال ناقصًا في الأدبيات. يقوم هذا البحث بتحليل أداء إزالة الأصداء اعتمادًا على حجم النموذج والمجال الاستقبالي لشبكات الvolution الزمنية. تظهر التجارب باستخدام مكتبة البيانات WHAMR، والتي تم توسيعها لتتضمن ردود فعل الغرفة الصوتية (RIRs) ذات قيم T60 أكبر، أن مجال استقبال أوسع يمكن أن يؤدي إلى تحسين كبير في الأداء عند تدريب نماذج TCN أصغر. كما يتم إظهار أن شبكات الvolution الزمنية تستفيد من مجال استقبال أوسع عند إزالة الأصداء من ردود فعل الغرفة الصوتية ذات قيم RT60 أكبر.请注意,"Temporal Convolutional Networks" 通常翻译为 "شبكات الvolution الزمنية",但正确的翻译应该是 "شبكات التلافيف الزمنية"。以下是修正后的版本:إزالة الأصداء من الكلام غالبًا ما تكون متطلبًا مهمًا في مهام معالجة الكلام المتينة. تقدم نماذج التعلم العميق المشرف عليها (DL) أداءً يمثل الحالة الفنية الأكثر تقدمًا لإزالة الأصداء من القنوات الواحدة للكلام. يتم استخدام شبكات التلافيف الزمنية (TCNs) بشكل شائع لنمذجة التسلسلات في مهام تعزيز الكلام. إحدى خصائص شبكات التلافيف الزمنية هو أنها لديها مجال استقبال (RF) يعتمد على تكوين النموذج المحدد، والذي يحدد عدد الإطارات الدخلية التي يمكن رصدها لإنتاج إطار خرج فردي. لقد تم إثبات أن شبكات التلافيف الزمنية قادرة على إزالة الأصداء من بيانات كلام محاكاة، ومع ذلك فإن التحليل الشامل، خاصة مع التركيز على المجال الاستقبالي، لا يزال ناقصًا في الأدبيات. يقوم هذا البحث بتحليل أداء إزالة الأصداء اعتمادًا على حجم النموذج والمجال الاستقبالي لشبكات التلافيف الزمنية. تظهر التجارب باستخدام مكتبة البيانات WHAMR، والتي تم توسيعها لتتضمن ردود فعل الغرفة الصوتية (RIRs) ذات قيم T60 أكبر، أن مجال استقبال أوسع يمكن أن يؤدي إلى تحسين كبير في الأداء عند تدريب نماذج TCN أصغر. كما يتم إظهار أن شبكات التلافيف الزمنية تستفيد من مجال استقبال أوسع عند إزالة الأصداء من ردود فعل الغرفة الصوتية ذات قيم RT60 أكبر.

تحليل مجال الاستقبال للشبكات التلافيفية الزمنية لإزالة الصدى من الكلام الأحادي القناة | أحدث الأوراق البحثية | HyperAI