حول اختيار وحدة النمذجة للاعتراف بالكلام من تسلسل إلى تسلسل

في التعرف التقليدي على الكلام، تتفوق النماذج القائمة على الفونيمات (الوحدات الصوتية) على النماذج القائمة على الجرافيمات (الحروف) في اللغات غير الصوتية مثل الإنجليزية. يقل الفارق في الأداء بين النوعين عادةً مع زيادة كمية البيانات التدريبية. في هذا البحث، ندرس تأثير اختيار وحدة النمذجة للنماذج المستندة إلى الانتباه المُشفر-المُفكك (attention-based encoder-decoder models). أجرينا تجارب على مهام LibriSpeech التي تستغرق 100 ساعة، 460 ساعة، و960 ساعة باستخدام وحدات هدف مختلفة (الفونيمات، الجرافيمات، والقطع الكلامية (word-piece)). عبر جميع المهام، وجدنا أن النماذج القائمة على الجرافيمات أو القطع الكلامية تتفوق باستمرار على النماذج القائمة على الفونيمات، حتى عند تقييمها دون قاموس أو نموذج لغوي خارجي. كما درسنا مكملية النماذج: وجدنا أنه يمكن تحسين معدل الأخطاء الكلامية (WERs) بنسبة تصل إلى 9% نسبية من خلال إعادة حساب قائمة N-الأفضل المولدة من نموذج قوي قائم على القطع الكلامية باستخدام إما النموذج الفونيمي أو الجرافيمي. ومع ذلك، فإن إعادة حساب قائمة N-الأفضل المولدة بواسطة النظام الفونيمي توفر تحسينات محدودة. يظهر التحليل الإضافي أن النماذج القائمة على القطع الكلامية تنتج فرضيات N-الأفضل الأكثر تنوعًا وبالتالي معدل أخطاء أقل من النماذج الفونيمية.