الترجمة الصوتية من الطرف إلى الطرف باستخدام النماذج المُدرَّبة مسبقًا والملحقات: UPC في IWSLT 2021

يُقدّم هذا البحث إرسالًا لمجموعة الترجمة الآلية في جامعة برشلونة للتقنيات (UPC) إلى مُهمة الترجمة الصوتية المُعيّنة في IWSLT 2021. تتكون المهمة من بناء نظام قادر على ترجمة تسجيلات صوتية باللغة الإنجليزية مستخرجة من محاضرات TED إلى نصوص باللغة الألمانية. يمكن أن تكون الأنظمة المُقدّمة إما متسلسلة (cascade) أو نهائية (end-to-end)، وتستخدم تقسيمًا مخصصًا أو معطىً. يُقدّم هذا البحث نظامًا للترجمة الصوتية النهائية، والذي يدمج نماذجًا مُدرّبة مسبقًا (Wav2Vec 2.0 وmBART) مع وحدات توصيل بين المُشفّر (encoder) والمُفكّك (decoder)، ويستخدم تقنية تدريب دقيق فعّالة تدرّب فقط 20% من مجموع المعاملات. نُظهر أن إضافة وحدة Adapter إلى النظام وتدريبها مسبقًا يمكن أن يزيد من سرعة التقارب ويحسّن النتيجة النهائية، حيث حققنا مقياس BLEU قدره 27.3 على مجموعة اختبار MuST-C. أما النموذج النهائي فهو مُجمّع (ensemble) يحقق مقياس BLEU قدره 28.22 على نفس المجموعة. كما يستخدم إرسالنا خوارزمية تقسيم مخصصة تعتمد على Wav2Vec 2.0 المُدرّب مسبقًا لتحديد الفترات التي لا يمكن تدوينها نصيًا، وقد أظهرت هذه الخوارزمية تحسينات تصل إلى 2.5 إلى 3 نقاط في مقياس BLEU على مجموعة اختبار IWSLT 2019 مقارنة بالنتيجة المحققة باستخدام التقسيم المعطى.