HyperAIHyperAI

Command Palette

Search for a command to run...

G-Augment: البحث عن البنية الميتا لسياسات تضخيم البيانات لتقنيات التعرف على الكلام

Gary Wang Ekin D.Cubuk Andrew Rosenberg Shuyang Cheng Ron J. Weiss Bhuvana Ramabhadran Pedro J. Moreno Quoc V. Le Daniel S. Park

الملخص

يُعدّ التكبير البيانات تقنية شائعة الاستخدام لتعزيز متانة تدريب التعرف التلقائي على الكلام (ASR). ومع أن معظم عملية تدريب ASR أصبحت آلية إلى حد كبير، واتخذت نهجًا أكثر "من البداية إلى النهاية"، إلا أن سياسة تكبير البيانات (أي الدوال المستخدمة في التكبير وكيفية تطبيقها) تظل مصممة يدويًا. نقدم تقنية تُسمى Graph-Augment، التي تُعرّف فضاء التكبير على شكل رسوم بيانية موجهة بدون دورة (DAGs)، وتُجري بحثًا داخل هذا الفضاء بهدف تحسين سياسة التكبير ذاتها. نُظهر أن، بالنظر إلى نفس الميزانية الحسابية، يمكن للسياسات الناتجة عن G-Augment أن تحقق أداءً أفضل من سياسات SpecAugment التي تم الحصول عليها عبر البحث العشوائي في مهام التخصيص الدقيق على مجموعتي بيانات CHiME-6 وAMI. كما تُظهر تقنية G-Augment تحقيق أداءً جديدًا في مستوى التميز (SOTA) في مجال التعرف على الكلام على مجموعة تقييم CHiME-6، بتحقيق نسبة خطأ كلمة (WER) قدرها 30.7%. ونُثبت أيضًا أن سياسات G-Augment تُظهر خصائص انتقال أفضل بين التدريبات التي تبدأ بتمهيد (warm-start) وتدريجية (cold-start)، وبين أحجام النماذج المختلفة، مقارنةً بسياسات SpecAugment التي تم الحصول عليها عبر البحث العشوائي.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
G-Augment: البحث عن البنية الميتا لسياسات تضخيم البيانات لتقنيات التعرف على الكلام | مستندات | HyperAI