Speechformer: تقليل فقدان المعلومات في الترجمة الصوتية المباشرة

أصبحت النماذج القائمة على مُحول (Transformer) شائعة بشكل متزايد، حيث حققت أداءً متقدمًا في مجالات بحثية عديدة، بما في ذلك الترجمة الصوتية. ومع ذلك، فإن التعقيد التربيعي لـ Transformer بالنسبة لطول التسلسل المدخل يمنع استخدامها بشكل مباشر مع الإشارات الصوتية، التي تمثل عادةً بتسلسلات طويلة. وتلجأ الحلول الحالية حاليًا إلى ضغط أولي غير مثالي يستند إلى عينة ثابتة من الميزات الصوتية الخام. وبالتالي، لا تكون المعلومات اللغوية القيّمة متاحة للطبقات العليا في البنية المعمارية. لحل هذه المشكلة، نقترح بنية تُسمى Speechformer، التي تسمح بتقليل استهلاك الذاكرة في طبقات الانتباه، مما يمكّنها من تجنب الضغط الخاسر الأولي، وتمكّن من تجميع المعلومات فقط على مستوى أعلى وفقًا لمُعايير لغوية أكثر دقة. أظهرت التجارب على ثلاث أزواج لغوية (en→de/es/nl) فعالية حلنا، حيث سجلت مكاسب تصل إلى 0.8 نقطة BLEU على مجموعة بيانات MuST-C القياسية، وصولاً إلى 4.0 نقطة BLEU في سيناريو منخفض الموارد.