التعلم متعدد المهام المُدرك للمهمة لمهام التحويل الصوتي إلى نص
بشكل عام، يتم تدريب الترجمة الصوتية المباشرة (ST) بشكل مشترك مع مهام التعرف على الكلام التلقائي (ASR) والترجمة الآلية (MT). ومع ذلك، فإن المشكلات المرتبطة باستراتيجيات التعلم المشترك الحالية تعيق نقل المعرفة بين هذه المهام. نقترح شبكة تنظيم المهام (Task Modulation Network) التي تتيح للنموذج تعلُّم السمات المحددة لكل مهمة، في الوقت الذي يتعلم فيه السمات المشتركة بشكل متزامن. يؤدي هذا النهج المقترح إلى إزالة الحاجة إلى خطوة التدريب الدقيق المنفصلة، مما ينتج نموذجًا واحدًا يؤدي جميع هذه المهام. ويحقق هذا النموذج الواحد درجة بليو تبلغ 28.64 في مهمة الترجمة الصوتية (ST) على مجموعة بيانات MuST-C الإنجليزية-الألمانية، ونسبة خطأ في التعرف على الكلام (WER) تبلغ 11.61% في مهمة ASR على مجموعة بيانات TEDLium v3، ودرجة بليو تبلغ 23.35 في مهمة الترجمة الآلية (MT) على مهمة WMT’15 الإنجليزية-الألمانية. ويُعد هذا الأداء الأفضل على الإطلاق (SOTA) في مهمة الترجمة الصوتية، مع تفوقه على النماذج الحالية المتكاملة بالكامل لنظام التعرف على الكلام.