HyperAIHyperAI

Command Palette

Search for a command to run...

واف2سيك: تدريب مُوديلات المُشفّر-المُفكّك من نوع التحويل الصوتي إلى نص باستخدام لغات افتراضية

Felix Wu Kwangyoun Kim Shinji Watanabe Kyu Han Ryan McDonald Kilian Q. Weinberger Yoav Artzi

الملخص

نقدّم Wav2Seq، أول منهجية ذاتية التدريب (self-supervised) لتدريب كلا الجزأين في نماذج المُشفر-المُفكّك (encoder-decoder) للبيانات الصوتية. نُولّد لغة افتراضية كتمثيل منفصل مكثّف، ونُصيغ مهمة اعتراف صوتي افتراضية ذاتية التدريب — أي تحويل الإدخالات الصوتية إلى تسلسلات فرعية افتراضية (pseudo subword). يُعد هذا الإجراء مستقلاً بذاته، أو يمكن تطبيقه كمرحلة تدريب ثانوية منخفضة التكلفة. قمنا بتجريبه في مجالات الاعتراف التلقائي باللغة الصوتية (ASR)، وتحديد الكيانات المُشار إليها شفهيًا، والترجمة الصوتية إلى النص. وقد حققنا نتائج جديدة قياسية في مجال الاعتراف بالكيانات المُشار إليها شفهيًا من النمط المتكامل (end-to-end)، كما أظهر تحسينًا متسقًا على 20 زوجًا لغويًا في الترجمة الصوتية إلى النص، حتى عندما تستخدم الطرق المُنافسة بيانات نصية إضافية أثناء التدريب. وأخيرًا، في مجال الاعتراف التلقائي باللغة الصوتية، يُمكّن منهجنا نماذج المُشفر-المُفكّك من الاستفادة من التدريب المسبق لجميع أجزاء الشبكة، ويُظهر أداءً مُComparable مع الطرق الحديثة المُحسّنة بشكل كبير.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
واف2سيك: تدريب مُوديلات المُشفّر-المُفكّك من نوع التحويل الصوتي إلى نص باستخدام لغات افتراضية | مستندات | HyperAI