أنظمة ASR هجينة أسرع، وأبسط، وأدق باستخدام وحدات الكلمات

في هذه الدراسة، نُظهر أولًا أن نظام التصنيف الزمني الاتصالي القائم على نموذج المحول (Transformer-based Context-Dependent Connectionist Temporal Classification - CTC) الذي نقدّمه يحقق نتائج متميزة على معيار ليبريسبيتش الشهير. ثم نُظهر أن استخدام وحدات الكلمات (wordpieces) كوحدات نمذجة مع تدريب CTC يمكن أن يبسّط بشكل كبير عملية الهندسة مقارنة بالتدريب التقليدي القائم على الإطارات باستخدام الدالة التلافيفية (cross-entropy)، وذلك بحذف جميع مراحل التهيئة الأولية باستخدام نماذج مختلطة من التوزيعات (GMM bootstrapping)، وبناء أشجار القرار (decision tree building)، والمحاذاة القسرية (force alignment)، مع الحفاظ على معدل خطأ كلمات (word-error-rate) متميز جدًا. علاوةً على ذلك، فإن استخدام وحدات الكلمات كوحدات نمذجة يُحسّن بشكل كبير من كفاءة التشغيل في الوقت الحقيقي، حيث يمكننا استخدام خطوات أكبر (larger stride) دون التضحية بالدقة. ونؤكد هذه النتائج أيضًا على مجموعتين داخليتين من بيانات VideoASR: الألمانية، التي تشبه الإنجليزية من حيث الطبيعة المُدمجة (fusional language)، والتركية، التي تمثل لغة مُلتحمة (agglutinative language).