SeamlessM4T: الترجمة الآلية متعددة اللغات والوسائط بشكل كبير

ما هي المتطلبات لإنشاء سمكة بابل، أداة يمكن أن تساعد الأفراد في ترجمة الكلام بين أي لغتين؟ رغم التقدم الكبير الذي حققته النماذج القائمة على النص في توسيع نطاق الترجمة الآلية إلى ما يتجاوز 200 لغة، فإن النماذج الموحدة للترجمة الصوتية-الصوتية لم تحقق خطوات مماثلة بعد. بشكل أكثر تحديدًا، تعتمد أنظمة الترجمة الصوتية-الصوتية التقليدية على نظم متسلسلة تقوم بالترجمة تدريجيًا، مما يجعل النظم الموحدة ذات الأداء العالي بعيدة المنال. لسد هذه الثغرات، نقدم SeamlessM4T، وهو نموذج واحد يدعم الترجمة الصوتية-الصوتية، والترجمة الصوتية-النصية، والترجمة النصية-الصوتية، والترجمة النصية-النصية، وفهم الكلام تلقائيًا لأكثر من 100 لغة. لتحقيق هذا الهدف، استخدمنا مليون ساعة من بيانات الصوت المفتوحة لتعلم تمثيلات الكلام ذات الرقابة الذاتية باستخدام w2v-BERT 2.0 (w2v-BERT 2.0). ثم قمنا بإنشاء مجموعة بيانات متعددة الوسائط تتضمن ترجمات صوتية مُحَاجَّتِيَّةً (automatically aligned). بعد تصفيتها ودمجها مع البيانات التي تم تصنيفها بواسطة البشر والبيانات المصنفة بشكل زائف (pseudo-labeled)، طورنا أول نظام متعدد اللغات قادر على الترجمة من وإلى الإنجليزية لكل من الكلام والنص. على فلورز (FLEURS)، يضع SeamlessM4T معيارًا جديدًا للترجمات إلى عدة لغات مستهدفة، حيث حقق تحسنًا بنسبة 20% في مؤشر BLEU مقارنة بأفضل التقنيات الحالية (SOTA) في الترجمة المباشرة من الصوت إلى النص. مقارنة بالأنماط المتسلسلة القوية، يحسن SeamlessM4T جودة الترجمات إلى الإنجليزية بمقدار 1.3 نقطة BLEU في الترجمة من الصوت إلى النص وبمقدار 2.6 نقطة ASR-BLEU في الترجمة الصوتية-الصوتية. عند اختباره للصلابة (robustness)، أظهر نظامنا أداءً أفضل ضد الضوضاء الخلفية وتغيرات المتحدثين في مهام الترجمة من الصوت إلى النص مقارنة بأفضل تقنية حالية (SOTA). بشكل حاسم، قمنا بتقييم SeamlessM4T فيما يتعلق بالتحيز الجنسي وإضافة السمية لتقييم سلامة الترجمة. وأخيرًا، جميع المساهمات في هذا العمل متاحة ومفتوحة المصدر ويمكن الوصول إليها عبر الرابط: https://github.com/facebookresearch/seamless_communication