HyperAIHyperAI
منذ 2 أشهر

SpecAugment: طريقة بسيطة لزيادة البيانات في التعرف التلقائي على الكلام

Daniel S. Park; William Chan; Yu Zhang; Chung-Cheng Chiu; Barret Zoph; Ekin D. Cubuk; Quoc V. Le
SpecAugment: طريقة بسيطة لزيادة البيانات في التعرف التلقائي على الكلام
الملخص

نقدم SpecAugment، وهو طريقة بسيطة لزيادة بيانات التعرف على الكلام. يتم تطبيق SpecAugment مباشرة على مدخلات الميزات للشبكة العصبية (أي معاملات بنك المرشحات). تتكون سياسة زيادة البيانات من تشويف الميزات، وإخفاء كتل من قنوات التردد، وإخفاء كتل من خطوات الزمن. نطبق SpecAugment على شبكات الاستماع والانتباه والكتابة (Listen, Attend and Spell) للأعمال التي تتطلب التعرف على الكلام من البداية إلى النهاية. نحقق أداءً يتفوق على أفضل الأداء السابق في مهمتي LibriSpeech 960 ساعة وSwichboard 300 ساعة، حيث نتفوق على جميع الأعمال السابقة. في LibriSpeech، نحقق معدل خطأ الكلمات (WER) بنسبة 6.8٪ في مجموعة الاختبار الأخرى دون استخدام نموذج اللغة، ومعدل خطأ الكلمات بنسبة 5.8٪ عند استخدام الاندماج السطحي مع نموذج اللغة. هذا مقارنة بأفضل نظام هجين سابق حقق معدل خطأ الكلمات بنسبة 7.5٪. بالنسبة لـ Swichboard، نحقق معدلات خطأ الكلمات بنسبة 7.2٪/14.6٪ في جزء Swichboard/CallHome من مجموعة اختبار Hub5'00 دون استخدام نموذج اللغة، ومعدلات خطأ الكلمات بنسبة 6.8٪/14.1٪ عند استخدام الاندماج السطحي، مما يقارن بأفضل نظام هجين سابق حقق معدلات خطأ الكلمات بنسبة 8.3٪/17.3٪ (WER).

SpecAugment: طريقة بسيطة لزيادة البيانات في التعرف التلقائي على الكلام | أحدث الأوراق البحثية | HyperAI