HyperAIHyperAI
منذ 17 أيام

G-Augment: البحث عن البنية الميتا لسياسات تضخيم البيانات لتقنيات التعرف على الكلام

Gary Wang, Ekin D.Cubuk, Andrew Rosenberg, Shuyang Cheng, Ron J. Weiss, Bhuvana Ramabhadran, Pedro J. Moreno, Quoc V. Le, Daniel S. Park
G-Augment: البحث عن البنية الميتا لسياسات تضخيم البيانات لتقنيات التعرف على الكلام
الملخص

يُعدّ التكبير البيانات تقنية شائعة الاستخدام لتعزيز متانة تدريب التعرف التلقائي على الكلام (ASR). ومع أن معظم عملية تدريب ASR أصبحت آلية إلى حد كبير، واتخذت نهجًا أكثر "من البداية إلى النهاية"، إلا أن سياسة تكبير البيانات (أي الدوال المستخدمة في التكبير وكيفية تطبيقها) تظل مصممة يدويًا. نقدم تقنية تُسمى Graph-Augment، التي تُعرّف فضاء التكبير على شكل رسوم بيانية موجهة بدون دورة (DAGs)، وتُجري بحثًا داخل هذا الفضاء بهدف تحسين سياسة التكبير ذاتها. نُظهر أن، بالنظر إلى نفس الميزانية الحسابية، يمكن للسياسات الناتجة عن G-Augment أن تحقق أداءً أفضل من سياسات SpecAugment التي تم الحصول عليها عبر البحث العشوائي في مهام التخصيص الدقيق على مجموعتي بيانات CHiME-6 وAMI. كما تُظهر تقنية G-Augment تحقيق أداءً جديدًا في مستوى التميز (SOTA) في مجال التعرف على الكلام على مجموعة تقييم CHiME-6، بتحقيق نسبة خطأ كلمة (WER) قدرها 30.7%. ونُثبت أيضًا أن سياسات G-Augment تُظهر خصائص انتقال أفضل بين التدريبات التي تبدأ بتمهيد (warm-start) وتدريجية (cold-start)، وبين أحجام النماذج المختلفة، مقارنةً بسياسات SpecAugment التي تم الحصول عليها عبر البحث العشوائي.