HyperAIHyperAI

Command Palette

Search for a command to run...

تدريب متتبعي الكلمات المفتاحية باستخدام بيانات صوتية محدودة ومُولَّدة اصطناعيًا

James Lin Kevin Kilgour Dominik Roblek Matthew Sharifi

الملخص

مع ارتفاع عدد الأجهزة الصغيرة المستهلكة للطاقة التي تدعم التعرف على الكلام، تزداد الحاجة إلى إنتاج نماذج للتعرف على مجموعات عشوائية من الكلمات المفتاحية بشكل سريع. كما هو الحال في العديد من مهام التعلم الآلي، فإن أحد أكثر الجوانب تحديًا في عملية إنشاء النموذج هو الحصول على كمية كافية من بيانات التدريب. في هذه الورقة، نستعرض فعالية بيانات الكلام المُولَّدة اصطناعيًا في تدريب نماذج صغيرة للكشف عن المصطلحات الصوتية، بحجم حوالي 400 ألف معلمة. بدلًا من تدريب هذه النماذج مباشرةً على الصوت أو على الخصائص المنخفضة المستوى مثل ميزات MFCC، نستخدم نموذجًا مُدرّبًا مسبقًا لاستخراج ميزات صوتية مفيدة لتطبيقات الكشف عن الكلمات المفتاحية. باستخدام هذه الميزات الصوتية المُستخرجة، نُظهر أن نموذجًا يكشف عن 10 كلمات مفتاحية، عند تدريبه فقط على بيانات صوتية اصطناعية، يعادل دقة نموذج تم تدريبه على أكثر من 500 مثال حقيقي. كما نُظهر أن نموذجًا لا يستخدم هذه الميزات الصوتية المُستخرجة سيحتاج إلى تدريبه على أكثر من 4000 مثال حقيقي للوصول إلى نفس دقة الأداء.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp