HyperAIHyperAI

Command Palette

Search for a command to run...

مُشَفِّر مزدوج المُفكِّر التحويلي للتقدير التلقائي للغة الصوتية والترجمة الصوتية متعددة اللغات بشكل مشترك

Hang Le Juan Pino Changhan Wang Jiatao Gu Didier Schwab Laurent Besacier

الملخص

نُقدِّم معمارية نموذج جديدة تُسمَّى "Transformer ذا فكَّيْن متعدِّدَيْن"، والتي تقوم بشكل مشترك بمهام التعرف التلقائي على الكلام (ASR) والترجمة الصوتية متعدِّدة اللغات (ST). تعتمد نماذجنا على معمارية Transformer الأصلية (Vaswani et al., 2017)، لكنها تتكون من فكَّين متعدِّدَيْن، كلٌّ منهما مسؤول عن مهمة واحدة (ASR أو ST). تكمن مساهمتنا الأساسية في طريقة تفاعل هذين الفكَّين: حيث يمكن للفكِّ الواحد أن يركز على مصادر معلومات مختلفة من الفكِّ الآخر من خلال آلية انتباه مزدوجة. ونُقدِّم نسختين من هذه المعمارية تتوافقان مع مستويين مختلفين من الاعتماد بين الفكَّين، ونُسمِّيهما على التوالي: "Transformer ذا فكَّين متعدِّدَيْن متوازيان" و"Transformer ذا فكَّين متعدِّدَيْن متقاطعان". أظهرت تجارب واسعة النطاق على مجموعة بيانات MuST-C أن نماذجنا تتفوَّق على أعلى أداء مُبلغ عنه سابقًا في السياقات متعدِّدة اللغات، كما تتفوَّق على النتائج الثنائية (واحد إلى واحد) أيضًا. علاوةً على ذلك، تُظهر نماذجنا المتوازية عدم وجود تنازل (trade-off) بين مهام ASR وST مقارنةً بالهندسة التقليدية متعدِّدة المهام. يُمكن الوصول إلى الكود والنموذج المُدرَّب مسبقًا عبر الرابط: https://github.com/formiel/speech-translation.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
مُشَفِّر مزدوج المُفكِّر التحويلي للتقدير التلقائي للغة الصوتية والترجمة الصوتية متعددة اللغات بشكل مشترك | مستندات | HyperAI