Command Palette
Search for a command to run...
تدريب متتبعي الكلمات المفتاحية باستخدام بيانات صوتية محدودة ومُولَّدة اصطناعيًا
تدريب متتبعي الكلمات المفتاحية باستخدام بيانات صوتية محدودة ومُولَّدة اصطناعيًا
James Lin Kevin Kilgour Dominik Roblek Matthew Sharifi
الملخص
مع ارتفاع عدد الأجهزة الصغيرة المستهلكة للطاقة التي تدعم التعرف على الكلام، تزداد الحاجة إلى إنتاج نماذج للتعرف على مجموعات عشوائية من الكلمات المفتاحية بشكل سريع. كما هو الحال في العديد من مهام التعلم الآلي، فإن أحد أكثر الجوانب تحديًا في عملية إنشاء النموذج هو الحصول على كمية كافية من بيانات التدريب. في هذه الورقة، نستعرض فعالية بيانات الكلام المُولَّدة اصطناعيًا في تدريب نماذج صغيرة للكشف عن المصطلحات الصوتية، بحجم حوالي 400 ألف معلمة. بدلًا من تدريب هذه النماذج مباشرةً على الصوت أو على الخصائص المنخفضة المستوى مثل ميزات MFCC، نستخدم نموذجًا مُدرّبًا مسبقًا لاستخراج ميزات صوتية مفيدة لتطبيقات الكشف عن الكلمات المفتاحية. باستخدام هذه الميزات الصوتية المُستخرجة، نُظهر أن نموذجًا يكشف عن 10 كلمات مفتاحية، عند تدريبه فقط على بيانات صوتية اصطناعية، يعادل دقة نموذج تم تدريبه على أكثر من 500 مثال حقيقي. كما نُظهر أن نموذجًا لا يستخدم هذه الميزات الصوتية المُستخرجة سيحتاج إلى تدريبه على أكثر من 4000 مثال حقيقي للوصول إلى نفس دقة الأداء.