TF-Locoformer: محول مع النمذجة المحلية بالتحويل للفصل والتحسين الصوتي

تُحقق نماذج المسار المزدوج في مجال الزمن-التكرار (TF) فصل الكلام بجودة عالية. بينما تعتمد بعض النماذج الرائدة سابقًا على الشبكات العصبية التكرارية (RNNs)، فإن هذا الاعتماد يعني أنها تفتقر إلى قابلية التوازي والتوسع والمرونة التي يتمتع بها كتل الترانسفورمر (Transformer blocks). نظرًا للنجاح الواسع الذي حققته الهندسات القائمة بالكامل على الترانسفورمر في مجالات أخرى، فقد ركزنا في هذه الدراسة على إزالة الشبكة العصبية التكرارية من نماذج المسار المزدوج في مجال الزمن-التكرار مع الحفاظ على الأداء الرائد. تقدم هذه الدراسة نموذج TF-Locoformer، وهو نموذج قائم على الترانسفورمر مع النمذجة المحلية بواسطة الإconvolution (LOcal-modeling by COnvolution). يستخدم النموذج شبكات متقدمة بالتدفق الأمامي (FFNs) ذات طبقات convolution بدلاً من الطبقات الخطية لتقاطع المعلومات المحلية، مما يتيح للانتباه الذاتي التركيز على التقاط الأنماط العالمية. وضعنا شبكتين متقدمتين بالتدفق الأمامي من هذا النوع قبل وبعد الانتباه الذاتي لتعزيز قدرة النمذجة المحلية. كما قدمنا أيضًا تقنية تطبيع جديدة لنماذج المسار المزدوج في مجال الزمن-التكرار. أظهرت التجارب على مجموعات بيانات الفصل والتحسين أن النموذج المقترح يلبي أو يتفوق على الأداء الرائد في عدة مقاييس باستخدام هندسة خالية من الشبكات العصبية التكرارية.