HyperAIHyperAI

Command Palette

Search for a command to run...

Speechformer: تقليل فقدان المعلومات في الترجمة الصوتية المباشرة

Sara Papi Marco Gaido Matteo Negri Marco Turchi

الملخص

أصبحت النماذج القائمة على مُحول (Transformer) شائعة بشكل متزايد، حيث حققت أداءً متقدمًا في مجالات بحثية عديدة، بما في ذلك الترجمة الصوتية. ومع ذلك، فإن التعقيد التربيعي لـ Transformer بالنسبة لطول التسلسل المدخل يمنع استخدامها بشكل مباشر مع الإشارات الصوتية، التي تمثل عادةً بتسلسلات طويلة. وتلجأ الحلول الحالية حاليًا إلى ضغط أولي غير مثالي يستند إلى عينة ثابتة من الميزات الصوتية الخام. وبالتالي، لا تكون المعلومات اللغوية القيّمة متاحة للطبقات العليا في البنية المعمارية. لحل هذه المشكلة، نقترح بنية تُسمى Speechformer، التي تسمح بتقليل استهلاك الذاكرة في طبقات الانتباه، مما يمكّنها من تجنب الضغط الخاسر الأولي، وتمكّن من تجميع المعلومات فقط على مستوى أعلى وفقًا لمُعايير لغوية أكثر دقة. أظهرت التجارب على ثلاث أزواج لغوية (en→de/es/nl) فعالية حلنا، حيث سجلت مكاسب تصل إلى 0.8 نقطة BLEU على مجموعة بيانات MuST-C القياسية، وصولاً إلى 4.0 نقطة BLEU في سيناريو منخفض الموارد.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
Speechformer: تقليل فقدان المعلومات في الترجمة الصوتية المباشرة | مستندات | HyperAI