HyperAIHyperAI

Command Palette

Search for a command to run...

TF-Locoformer: محول مع النمذجة المحلية بالتحويل للفصل والتحسين الصوتي

Kohei Saijo Gordon Wichern François G. Germain Zexu Pan Jonathan Le Roux

الملخص

تُحقق نماذج المسار المزدوج في مجال الزمن-التكرار (TF) فصل الكلام بجودة عالية. بينما تعتمد بعض النماذج الرائدة سابقًا على الشبكات العصبية التكرارية (RNNs)، فإن هذا الاعتماد يعني أنها تفتقر إلى قابلية التوازي والتوسع والمرونة التي يتمتع بها كتل الترانسفورمر (Transformer blocks). نظرًا للنجاح الواسع الذي حققته الهندسات القائمة بالكامل على الترانسفورمر في مجالات أخرى، فقد ركزنا في هذه الدراسة على إزالة الشبكة العصبية التكرارية من نماذج المسار المزدوج في مجال الزمن-التكرار مع الحفاظ على الأداء الرائد. تقدم هذه الدراسة نموذج TF-Locoformer، وهو نموذج قائم على الترانسفورمر مع النمذجة المحلية بواسطة الإconvolution (LOcal-modeling by COnvolution). يستخدم النموذج شبكات متقدمة بالتدفق الأمامي (FFNs) ذات طبقات convolution بدلاً من الطبقات الخطية لتقاطع المعلومات المحلية، مما يتيح للانتباه الذاتي التركيز على التقاط الأنماط العالمية. وضعنا شبكتين متقدمتين بالتدفق الأمامي من هذا النوع قبل وبعد الانتباه الذاتي لتعزيز قدرة النمذجة المحلية. كما قدمنا أيضًا تقنية تطبيع جديدة لنماذج المسار المزدوج في مجال الزمن-التكرار. أظهرت التجارب على مجموعات بيانات الفصل والتحسين أن النموذج المقترح يلبي أو يتفوق على الأداء الرائد في عدة مقاييس باستخدام هندسة خالية من الشبكات العصبية التكرارية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp