الشبكة الشبكية الكثيفة ذات التمايز العميقة للتحسين الصوتي

تم استخدام الشبكات العصبية التلافيفية (CNNs) ذات الروابط المتبقية (ResNets) ووحدات التلافيف التباعي المُوسّع (causal dilated convolutional units) كشبكات مفضلة في النماذج العميقة لتحسين الصوت. وعلى الرغم من أن الروابط المتبقية تحسّن تدفق التدرجات أثناء التدريب، إلا أن تقلّص الميزات الناتج عن مخرجات الطبقات السطحية قد يحدث بسبب الجمع المتكرر مع مخرجات الطبقات العميقة. إحدى الاستراتيجيات لتحسين إعادة استخدام الميزات هي دمج كل من ResNets وشبكات CNN المتصلة كثيفًا (DenseNets). ومع ذلك، فإن DenseNets تتطلب تخصيصًا مفرطًا للمعاملات لغرض إعادة استخدام الميزات. مستوحى من هذا التحدي، نقترح شبكة RDL-Net (الشبكة الشبكية المتبقية-الكثيفة)، وهي شبكة عصبية تلافيفية جديدة لتحسين الصوت، تستخدم كلاً من التجميع المتبقِّي والتجميع الكثيف دون تخصيص مفرط للمعاملات لغرض إعادة استخدام الميزات. يتم تحقيق ذلك من خلال البنية الهيكلية لوحدات RDL، التي تحد من عدد المخرجات المستخدمة في عمليات التجميع الكثيف. تُظهر دراستنا التجريبية الواسعة أن RDL-Nets قادرة على تحقيق أداءً أعلى في تحسين الصوت مقارنةً بالشبكات التي تعتمد على التجميع المتبقِّي أو التجميع الكثيف أو كليهما. كما أن RDL-Nets تستهلك عددًا أقل بكثير من المعاملات، وتتمتع بمتطلبات حسابية أقل. علاوةً على ذلك، نُظهر أن RDL-Nets تتفوّق على العديد من النماذج الرائدة في مجال التعلم العميق لتحسين الصوت.