HyperAIHyperAI
منذ 17 أيام

WavLM: التدريب المسبق الذاتي على نطاق واسع لمعالجة الصوت الشاملة

Sanyuan Chen, Chengyi Wang, Zhengyang Chen, Yu Wu, Shujie Liu, Zhuo Chen, Jinyu Li, Naoyuki Kanda, Takuya Yoshioka, Xiong Xiao, Jian Wu, Long Zhou, Shuo Ren, Yanmin Qian, Yao Qian, Jian Wu, Michael Zeng, Xiangzhan Yu, Furu Wei
WavLM: التدريب المسبق الذاتي على نطاق واسع لمعالجة الصوت الشاملة
الملخص

تحقيق التعلم الذاتي (SSL) نجاحًا كبيرًا في التعرف على الكلام، في حين أن الجهود المبذولة لاستكشاف مهام معالجة الكلام الأخرى كانت محدودة. نظرًا لأن الإشارة الصوتية تحتوي على معلومات متعددة الأوجه، بما في ذلك هوية المتكلم، والسمات غير اللغوية، ومحتوى الكلام المُتحدث، فإن تعلم تمثيلات عامة تلبي جميع مهام معالجة الكلام يُعد تحديًا كبيرًا. ولحل هذه المشكلة، نقترح نموذجًا مُدرّبًا مسبقًا جديدًا يُسمى WavLM، يهدف إلى معالجة مهام معالجة الكلام في كامل مراحل التطبيق. يقوم WavLM في مرحلة التدريب المسبق بتعلم التنبؤ بالصوت المُخفي (masked speech prediction) والتنقية من الضوضاء (denoising) معًا. وبهذا التوجه، لا يحافظ WavLM فقط على قدرته في نمذجة محتوى الصوت من خلال التنبؤ بالصوت المُخفي، بل يعزز أيضًا قدرته على المهام غير المتعلقة بالتعرف على الكلام (non-ASR) من خلال عملية تنقية الصوت. بالإضافة إلى ذلك، يستخدم WavLM مصطلح "الانحياز النسبي المُدار" (gated relative position bias) في هيكل الـ Transformer لتحسين التقاط ترتيب التسلسل في الإدخال الصوتي. كما قمنا بتوسيع حجم مجموعة البيانات التدريبية من 60 ألف ساعة إلى 94 ألف ساعة. وقد حقق نموذج WavLM Large أداءً متقدمًا جدًا على معيار SUPERB، وحقق تحسينات كبيرة في مجموعة متنوعة من مهام معالجة الكلام على معاييرها الممثلة. يمكن الاطلاع على الكود والنماذج المُدرّبة مسبقًا من خلال الرابط: https://aka.ms/wavlm.