HyperAIHyperAI
منذ 2 أشهر

SeamlessM4T: الترجمة الآلية متعددة اللغات والوسائط بشكل كبير

Seamless Communication; Loïc Barrault; Yu-An Chung; Mariano Cora Meglioli; David Dale; Ning Dong; Paul-Ambroise Duquenne; Hady Elsahar; Hongyu Gong; Kevin Heffernan; John Hoffman; Christopher Klaiber; Pengwei Li; Daniel Licht; Jean Maillard; Alice Rakotoarison; Kaushik Ram Sadagopan; Guillaume Wenzek; Ethan Ye; Bapi Akula; Peng-Jen Chen; Naji El Hachem; Brian Ellis; Gabriel Mejia Gonzalez; Justin Haaheim; Prangthip Hansanti; Russ Howes; Bernie Huang; Min-Jae Hwang; Hirofumi Inaguma; Somya Jain; Elahe Kalbassi; Amanda Kallet; Ilia Kulikov; Janice Lam; Daniel Li; Xutai Ma; Ruslan Mavlyutov; Benjamin Peloquin; Mohamed Ramadan; Abinesh Ramakrishnan; Anna Sun; Kevin Tran; Tuan Tran; Igor Tufanov; Vish Vogeti; Carleigh Wood; Yilin Yang; Bokai Yu; Pierre Andrews; Can Balioglu; Marta R. Costa-jussà; Onur Celebi; Maha Elbayad; Cynthia Gao; Francisco Guzmán; Justine Kao; Ann Lee; Alexandre Mourachko; Juan Pino; Sravya Popuri; Christophe Ropers; Safiyyah Saleem; Holger Schwenk; Paden Tomasello; Changhan Wang; Jeff Wang; Skyler Wang
SeamlessM4T: الترجمة الآلية متعددة اللغات والوسائط بشكل كبير
الملخص

ما هي المتطلبات لإنشاء سمكة بابل، أداة يمكن أن تساعد الأفراد في ترجمة الكلام بين أي لغتين؟ رغم التقدم الكبير الذي حققته النماذج القائمة على النص في توسيع نطاق الترجمة الآلية إلى ما يتجاوز 200 لغة، فإن النماذج الموحدة للترجمة الصوتية-الصوتية لم تحقق خطوات مماثلة بعد. بشكل أكثر تحديدًا، تعتمد أنظمة الترجمة الصوتية-الصوتية التقليدية على نظم متسلسلة تقوم بالترجمة تدريجيًا، مما يجعل النظم الموحدة ذات الأداء العالي بعيدة المنال. لسد هذه الثغرات، نقدم SeamlessM4T، وهو نموذج واحد يدعم الترجمة الصوتية-الصوتية، والترجمة الصوتية-النصية، والترجمة النصية-الصوتية، والترجمة النصية-النصية، وفهم الكلام تلقائيًا لأكثر من 100 لغة. لتحقيق هذا الهدف، استخدمنا مليون ساعة من بيانات الصوت المفتوحة لتعلم تمثيلات الكلام ذات الرقابة الذاتية باستخدام w2v-BERT 2.0 (w2v-BERT 2.0). ثم قمنا بإنشاء مجموعة بيانات متعددة الوسائط تتضمن ترجمات صوتية مُحَاجَّتِيَّةً (automatically aligned). بعد تصفيتها ودمجها مع البيانات التي تم تصنيفها بواسطة البشر والبيانات المصنفة بشكل زائف (pseudo-labeled)، طورنا أول نظام متعدد اللغات قادر على الترجمة من وإلى الإنجليزية لكل من الكلام والنص. على فلورز (FLEURS)، يضع SeamlessM4T معيارًا جديدًا للترجمات إلى عدة لغات مستهدفة، حيث حقق تحسنًا بنسبة 20% في مؤشر BLEU مقارنة بأفضل التقنيات الحالية (SOTA) في الترجمة المباشرة من الصوت إلى النص. مقارنة بالأنماط المتسلسلة القوية، يحسن SeamlessM4T جودة الترجمات إلى الإنجليزية بمقدار 1.3 نقطة BLEU في الترجمة من الصوت إلى النص وبمقدار 2.6 نقطة ASR-BLEU في الترجمة الصوتية-الصوتية. عند اختباره للصلابة (robustness)، أظهر نظامنا أداءً أفضل ضد الضوضاء الخلفية وتغيرات المتحدثين في مهام الترجمة من الصوت إلى النص مقارنة بأفضل تقنية حالية (SOTA). بشكل حاسم، قمنا بتقييم SeamlessM4T فيما يتعلق بالتحيز الجنسي وإضافة السمية لتقييم سلامة الترجمة. وأخيرًا، جميع المساهمات في هذا العمل متاحة ومفتوحة المصدر ويمكن الوصول إليها عبر الرابط: https://github.com/facebookresearch/seamless_communication