HyperAIHyperAI
منذ 17 أيام

واف2سيك: تدريب مُوديلات المُشفّر-المُفكّك من نوع التحويل الصوتي إلى نص باستخدام لغات افتراضية

Felix Wu, Kwangyoun Kim, Shinji Watanabe, Kyu Han, Ryan McDonald, Kilian Q. Weinberger, Yoav Artzi
واف2سيك: تدريب مُوديلات المُشفّر-المُفكّك من نوع التحويل الصوتي إلى نص باستخدام لغات افتراضية
الملخص

نقدّم Wav2Seq، أول منهجية ذاتية التدريب (self-supervised) لتدريب كلا الجزأين في نماذج المُشفر-المُفكّك (encoder-decoder) للبيانات الصوتية. نُولّد لغة افتراضية كتمثيل منفصل مكثّف، ونُصيغ مهمة اعتراف صوتي افتراضية ذاتية التدريب — أي تحويل الإدخالات الصوتية إلى تسلسلات فرعية افتراضية (pseudo subword). يُعد هذا الإجراء مستقلاً بذاته، أو يمكن تطبيقه كمرحلة تدريب ثانوية منخفضة التكلفة. قمنا بتجريبه في مجالات الاعتراف التلقائي باللغة الصوتية (ASR)، وتحديد الكيانات المُشار إليها شفهيًا، والترجمة الصوتية إلى النص. وقد حققنا نتائج جديدة قياسية في مجال الاعتراف بالكيانات المُشار إليها شفهيًا من النمط المتكامل (end-to-end)، كما أظهر تحسينًا متسقًا على 20 زوجًا لغويًا في الترجمة الصوتية إلى النص، حتى عندما تستخدم الطرق المُنافسة بيانات نصية إضافية أثناء التدريب. وأخيرًا، في مجال الاعتراف التلقائي باللغة الصوتية، يُمكّن منهجنا نماذج المُشفر-المُفكّك من الاستفادة من التدريب المسبق لجميع أجزاء الشبكة، ويُظهر أداءً مُComparable مع الطرق الحديثة المُحسّنة بشكل كبير.