فصل وإعادة بناء: مُشفِّر-مُفكِّك غير متماثل لفصل الكلام

في مجال فصل الكلام، نجحت الأساليب الزمنية في استبدال المجال الزمني-الترددي بالمميزات التسلسلية الكامنة المستخرجة من مُشفر قابل للتعلم. حسب المعتاد، يتم فصل هذه المميزات إلى مميزات خاصة بكل متحدث في المرحلة النهائية من الشبكة. بدلاً من ذلك، نقترح استراتيجية أكثر حدسية تفصل المميزات في وقت مبكر عن طريق توسيع تسلسل المميزات لتشمل عدد المتحدثين كبعد إضافي. لتحقيق هذا الهدف، تم تقديم استراتيجية غير متماثلة حيث يتم تقسيم المُشفر والمُفكك لإجراء معالجة مختلفة في مهمات الفصل. يقوم المُشفر بتحليل المميزات، ويتم تقسيم خرجه إلى عدد المتحدثين الذين سيتم فصلهم. ثم يتم إعادة بناء التسلسلات المنفصلة بواسطة المُفكك الذي يشارك الأوزان ويقوم أيضًا بمعالجة بين المتحدثين. دون الاعتماد على المعلومات المتعلقة بالمتحدث، تقوم الشبكة التي تشترك الأوزان في المُفكك بتعلم كيفية تمييز المميزات مباشرة باستخدام هدف الفصل. بالإضافة إلى ذلك، لتحسين الأداء، قد أدى امتداد طول التسلسل في الطرق التقليدية إلى استخدام نماذج المسار الثنائي، والتي تعامل التسلسل الطويل بشكل فعال عبر تقسيمه إلى أجزاء. لمعالجة هذا الأمر، نقدم كتل تحويل (Transformer) عالمية ومحليّة يمكنها التعامل مع التسلسلات الطويلة بكفاءة أكبر دون الحاجة إلى التقسيم ومعالجة المسار الثنائي. أظهرت النتائج التجريبية أن هذه البنية غير المتماثلة فعالة وأن الجمع بين الكتل العالمية والمحلية المقترحة يمكنه استبدال دور المعالجة بين الأجزاء وفي داخلها في البنية ذات المسار الثنائي بشكل كافٍ. وأخيرًا، حقق النموذج المعروض والذي يجمع بين هذين العنصرين أداءً رائدًا بأقل حساب بكثير في مختلف مجموعات البيانات المرجعية.