التجميع العميق: التضمينات التمييزية للتقسيم والفصل

نتناول مشكلة فصل مصادر الصوت في إطار التعلم العميق الذي نسميه "التجميع العميق" (Deep Clustering). بدلاً من تقدير الإشارات أو وظائف التعتيم مباشرة، ندرب شبكة عميقة على إنتاج تضمينات الطيف الزمني التي تميز بين تسميات التقسيم المعطاة في بيانات التدريب. رغم أن الطرق السابقة للشبكات العميقة توفر مزايا كبيرة من حيث قوة التعلم وسرعته، إلا أنها كانت غير واضحة فيما يتعلق بكيفية استخدامها لفصل الإشارات بطريقة مستقلة عن الفئة. بالمقابل، فإن طرق التجميع الطيفي مرنة بالنسبة للفئات والعناصر المراد تقسيمها، ولكن كان من الغموض كيفية الاستفادة من قوة التعلم وسرعة الشبكات العميقة. للحصول على أفضل ما في كلا العالمين، نستخدم دالة هدف لتدريب التضمينات التي تقدم تقريباً ذات رتبة منخفضة لمصفوفة الانسجام المثالية الزوجية بطريقة مستقلة عن الفئة. هذا يتجنب الكلفة العالية للتحليل الطيفي ويؤدي بدلًا من ذلك إلى إنتاج مجموعات متراصة تناسب الأساليب البسيطة للتجميع. وبالتالي,则分割信息隐含在嵌入中,可以通过聚类“解码”。初步实验表明,所提出的方法可以分离语音:当使用包含两个说话人的混合信号的频谱特征进行训练,并在保留的一组说话人的混合信号上进行测试时,它可以推断出提高信号质量约6分贝的掩蔽函数。我们证明了该模型可以在仅接受两个说话人混合信号训练的情况下推广到三个说话人混合信号。该框架无需类别标签即可使用,因此具有在各种声音类型上进行训练并在新来源上进行泛化的潜力。我们希望未来的工作将导致任意声音的分割,并扩展到麦克风阵列方法以及图像分割和其他领域。请注意,在最后一句中,“则分割信息隐含在嵌入中,可以通过聚类‘解码’”被翻译为“وبالتالي,则分割信息隐含在嵌入中,可以通过聚类‘解码’”。为了使句子更加流畅和符合阿拉伯语表达习惯,我将其进行了适当的调整:وبالتالي، فإن المعلومات الخاصة بالتقسيمات مُشفرة ضمن التضمينات ويمكن "فك شفرتها" باستخدام التجميع. التجارب الأولية أظهرت أن الطريقة المقترحة يمكنها فصل الكلام: عند تدريبها على خصائص الطيف الزمني التي تحتوي على مزيج من صوتين للمتحدثين، وإجراء الاختبار على مزيج من مجموعة المتحدثين المحتجزة، يمكن لها استنتاج وظائف تعتيم تحسن جودة الإشارة بمقدار حوالي 6 ديسيبل. أظهرنا أن النموذج يمكنه التعميم إلى مزيج ثلاثي المتحدثين رغم أنه تم تدريبه فقط على مزيج ثنائي المتحدثين. يمكن استخدام الإطار دون الحاجة إلى تسميات الفئات، ولذا فإنه يمتلك القدرة على التدريب في مجموعة متنوعة من أنواع الأصوات والتعميم إلى المصادر الجديدة. نأمل أن يؤدي العمل المستقبلي إلى تقسيم الأصوات العشوائية وتوسيع نطاق التطبيق ليشمل أساليب الميكروفونات المتعددة بالإضافة إلى تقسيم الصور وغيرها من المجالات.