HyperAIHyperAI
منذ 17 أيام

التسمية الوهمية التكرارية للتعرف على الصوت

Qiantong Xu, Tatiana Likhomanenko, Jacob Kahn, Awni Hannun, Gabriel Synnaeve, Ronan Collobert
التسمية الوهمية التكرارية للتعرف على الصوت
الملخص

أظهر التسمية الوهمية (Pseudo-labeling) مؤخرًا إمكانات واعدة في التعرف التلقائي على الكلام (ASR) من الطرف إلى الطرف. ندرس خوارزمية التسمية الوهمية التكرارية (Iterative Pseudo-Labeling - IPL)، وهي خوارزمية شبه مراقبة تُطبّق بشكل فعّال عدة تكرارات من التسمية الوهمية على البيانات غير المُعلّمة أثناء تطوّر النموذج الصوتي. وبشكل خاص، تقوم IPL بضبط النموذج القائم في كل تكرار باستخدام كل من البيانات المُعلّمة وجزء من البيانات غير المُعلّمة. وندرس المكونات الرئيسية لـ IPL، وهي فك الترميز باستخدام نموذج لغوي وتكبير البيانات. ثم نُظهر فعالية IPL من خلال تحقيق أفضل معدلات خطأ كلمة (Word-Error Rate) على مجموعات اختبار Librispeech في كل من البيئات القياسية والبيئات منخفضة الموارد. كما ندرس تأثير نماذج لغوية تم تدريبها على مجموعات نصية مختلفة، مما يُظهر أن IPL يمكنها الاستفادة الفعّالة من النصوص الإضافية. وأخيرًا، نُطلق Corpus نصي كبير ومتخصص (in-domain) جديدًا لا يتقاطع مع نصوص التدريب الخاصة بـ Librispeech، وذلك لتشجيع الأبحاث في مجال التعرف التلقائي على الكلام شبه المراقب ومنخفض الموارد.

التسمية الوهمية التكرارية للتعرف على الصوت | أحدث الأوراق البحثية | HyperAI