نهج بديل في استخراج الصوت

البحث في استخراج المتحدث المستهدف باستخدام أدلة الصوت (TSE) ركز بشكل أساسي على نمذجة الكلام المختلط والمرجعي، مما أدى إلى تحقيق أداء عالي في اللغة الإنجليزية بفضل توفر قواعد بيانات كبيرة. ومع ذلك، لم يُولَ اهتمام كافٍ للخصائص الثابتة للكلام البشري عبر اللغات المختلفة. لسد هذه الفجوة، نقدم نموذجًا بديلًا يواجه تحدي نقل نماذج TSE من لغة إلى أخرى دون إعادة التuning (微调). في هذا العمل، اقترحنا آلية التحكم بالبوابات التي تمكن من تعديل الترددات المحددة بناءً على الخصائص الصوتية للمتحدث. حقق النموذج نسبة SI-SDR تبلغ 17.3544 في الكلام الإنجليزي النقي و13.2032 في الكلام النقي المختلط مع ضوضاء Wham!، مما يجعله يتفوق على جميع النماذج الأخرى في قدرته على التكيف مع اللغات المختلفة.注:在阿拉伯语中,“微调”通常翻译为“إعادة التuning”,但为了保持正式性和专业性,建议使用“إعادة التعديل الدقيق”来替代。修正后的翻译:البحث في استخراج المتحدث المستهدف باستخدام أدلة الصوت (TSE) ركز بشكل أساسي على نمذجة الكلام المختلط والمرجعي، مما أدى إلى تحقيق أداء عالي في اللغة الإنجليزية بفضل توفر قواعد بيانات كبيرة. ومع ذلك، لم يُولَ اهتمام كافٍ للخصائص الثابتة للكلام البشري عبر اللغات المختلفة. لسد هذه الفجوة، نقدم نموذجًا بديلًا يواجه تحدي نقل نماذج TSE من لغة إلى أخرى دون إعادة التعديل الدقيق. في هذا العمل، اقترحنا آلية التحكم بالبوابات التي تمكن من تعديل الترددات المحددة بناءً على الخصائص الصوتية للمتحدث. حقق النموذج نسبة SI-SDR تبلغ 17.3544 في الكلام الإنجليزي النقي و13.2032 في الكلام النقي المختلط مع ضوضاء Wham!، مما يجعله يتفوق على جميع النماذج الأخرى في قدرته على التكيف مع اللغات المختلفة.