الملخص

ما هي المتطلبات لإنشاء سمكة بابل، أداة يمكن أن تساعد الأفراد في ترجمة الكلام بين أي لغتين؟ رغم التقدم الكبير الذي حققته النماذج القائمة على النص في توسيع نطاق الترجمة الآلية إلى ما يتجاوز 200 لغة، فإن النماذج الموحدة للترجمة الصوتية-الصوتية لم تحقق خطوات مماثلة بعد. بشكل أكثر تحديدًا، تعتمد أنظمة الترجمة الصوتية-الصوتية التقليدية على نظم متسلسلة تقوم بالترجمة تدريجيًا، مما يجعل النظم الموحدة ذات الأداء العالي بعيدة المنال. لسد هذه الثغرات، نقدم SeamlessM4T، وهو نموذج واحد يدعم الترجمة الصوتية-الصوتية، والترجمة الصوتية-النصية، والترجمة النصية-الصوتية، والترجمة النصية-النصية، وفهم الكلام تلقائيًا لأكثر من 100 لغة. لتحقيق هذا الهدف، استخدمنا مليون ساعة من بيانات الصوت المفتوحة لتعلم تمثيلات الكلام ذات الرقابة الذاتية باستخدام w2v-BERT 2.0 (w2v-BERT 2.0). ثم قمنا بإنشاء مجموعة بيانات متعددة الوسائط تتضمن ترجمات صوتية مُحَاجَّتِيَّةً (automatically aligned). بعد تصفيتها ودمجها مع البيانات التي تم تصنيفها بواسطة البشر والبيانات المصنفة بشكل زائف (pseudo-labeled)، طورنا أول نظام متعدد اللغات قادر على الترجمة من وإلى الإنجليزية لكل من الكلام والنص. على فلورز (FLEURS)، يضع SeamlessM4T معيارًا جديدًا للترجمات إلى عدة لغات مستهدفة، حيث حقق تحسنًا بنسبة 20% في مؤشر BLEU مقارنة بأفضل التقنيات الحالية (SOTA) في الترجمة المباشرة من الصوت إلى النص. مقارنة بالأنماط المتسلسلة القوية، يحسن SeamlessM4T جودة الترجمات إلى الإنجليزية بمقدار 1.3 نقطة BLEU في الترجمة من الصوت إلى النص وبمقدار 2.6 نقطة ASR-BLEU في الترجمة الصوتية-الصوتية. عند اختباره للصلابة (robustness)، أظهر نظامنا أداءً أفضل ضد الضوضاء الخلفية وتغيرات المتحدثين في مهام الترجمة من الصوت إلى النص مقارنة بأفضل تقنية حالية (SOTA). بشكل حاسم، قمنا بتقييم SeamlessM4T فيما يتعلق بالتحيز الجنسي وإضافة السمية لتقييم سلامة الترجمة. وأخيرًا، جميع المساهمات في هذا العمل متاحة ومفتوحة المصدر ويمكن الوصول إليها عبر الرابط: https://github.com/facebookresearch/seamless_communication

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

SeamlessM4T: الترجمة الآلية متعددة اللغات والوسائط بشكل كبير

Loïc Barrault* Yu-An Chung* Mariano Coria Meglioli* David Dale* Ning Dong* Paul-Ambroise Duquenne*† Hady Elsahar* Hongyu Gong* Kevin Heffernan* John Hoffman*57 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

SeamlessM4T: الترجمة الآلية متعددة اللغات والوسائط بشكل كبير

Loïc Barrault* Yu-An Chung* Mariano Coria Meglioli* David Dale* Ning Dong* Paul-Ambroise Duquenne*† Hady Elsahar* Hongyu Gong* Kevin Heffernan* John Hoffman*57 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

SeamlessM4T: الترجمة الآلية متعددة اللغات والوسائط بشكل كبير

Loïc Barrault* Yu-An Chung* Mariano Coria Meglioli* David Dale* Ning Dong* Paul-Ambroise Duquenne*† Hady Elsahar* Hongyu Gong* Kevin Heffernan* John Hoffman*57 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Loïc Barrault* Yu-An Chung* Mariano Coria Meglioli* David Dale* Ning Dong* Paul-Ambroise Duquenne† Hady Elsahar Hongyu Gong* Kevin Heffernan* John Hoffman*

Loïc Barrault* Yu-An Chung* Mariano Coria Meglioli* David Dale* Ning Dong* Paul-Ambroise Duquenne† Hady Elsahar Hongyu Gong* Kevin Heffernan* John Hoffman*

Loïc Barrault* Yu-An Chung* Mariano Coria Meglioli* David Dale* Ning Dong* Paul-Ambroise Duquenne† Hady Elsahar Hongyu Gong* Kevin Heffernan* John Hoffman*