منذ 17 أيام

مُشَفِّر مزدوج المُفكِّر التحويلي للتقدير التلقائي للغة الصوتية والترجمة الصوتية متعددة اللغات بشكل مشترك

Hang Le, Juan Pino, Changhan Wang, Jiatao Gu, Didier Schwab, Laurent Besacier

الملخص

نُقدِّم معمارية نموذج جديدة تُسمَّى "Transformer ذا فكَّيْن متعدِّدَيْن"، والتي تقوم بشكل مشترك بمهام التعرف التلقائي على الكلام (ASR) والترجمة الصوتية متعدِّدة اللغات (ST). تعتمد نماذجنا على معمارية Transformer الأصلية (Vaswani et al., 2017)، لكنها تتكون من فكَّين متعدِّدَيْن، كلٌّ منهما مسؤول عن مهمة واحدة (ASR أو ST). تكمن مساهمتنا الأساسية في طريقة تفاعل هذين الفكَّين: حيث يمكن للفكِّ الواحد أن يركز على مصادر معلومات مختلفة من الفكِّ الآخر من خلال آلية انتباه مزدوجة. ونُقدِّم نسختين من هذه المعمارية تتوافقان مع مستويين مختلفين من الاعتماد بين الفكَّين، ونُسمِّيهما على التوالي: "Transformer ذا فكَّين متعدِّدَيْن متوازيان" و"Transformer ذا فكَّين متعدِّدَيْن متقاطعان". أظهرت تجارب واسعة النطاق على مجموعة بيانات MuST-C أن نماذجنا تتفوَّق على أعلى أداء مُبلغ عنه سابقًا في السياقات متعدِّدة اللغات، كما تتفوَّق على النتائج الثنائية (واحد إلى واحد) أيضًا. علاوةً على ذلك، تُظهر نماذجنا المتوازية عدم وجود تنازل (trade-off) بين مهام ASR وST مقارنةً بالهندسة التقليدية متعدِّدة المهام. يُمكن الوصول إلى الكود والنموذج المُدرَّب مسبقًا عبر الرابط: https://github.com/formiel/speech-translation.