HyperAIHyperAI
منذ 17 أيام

أنظمة ASR هجينة أسرع، وأبسط، وأدق باستخدام وحدات الكلمات

Frank Zhang, Yongqiang Wang, Xiaohui Zhang, Chunxi Liu, Yatharth Saraf, Geoffrey Zweig
أنظمة ASR هجينة أسرع، وأبسط، وأدق باستخدام وحدات الكلمات
الملخص

في هذه الدراسة، نُظهر أولًا أن نظام التصنيف الزمني الاتصالي القائم على نموذج المحول (Transformer-based Context-Dependent Connectionist Temporal Classification - CTC) الذي نقدّمه يحقق نتائج متميزة على معيار ليبريسبيتش الشهير. ثم نُظهر أن استخدام وحدات الكلمات (wordpieces) كوحدات نمذجة مع تدريب CTC يمكن أن يبسّط بشكل كبير عملية الهندسة مقارنة بالتدريب التقليدي القائم على الإطارات باستخدام الدالة التلافيفية (cross-entropy)، وذلك بحذف جميع مراحل التهيئة الأولية باستخدام نماذج مختلطة من التوزيعات (GMM bootstrapping)، وبناء أشجار القرار (decision tree building)، والمحاذاة القسرية (force alignment)، مع الحفاظ على معدل خطأ كلمات (word-error-rate) متميز جدًا. علاوةً على ذلك، فإن استخدام وحدات الكلمات كوحدات نمذجة يُحسّن بشكل كبير من كفاءة التشغيل في الوقت الحقيقي، حيث يمكننا استخدام خطوات أكبر (larger stride) دون التضحية بالدقة. ونؤكد هذه النتائج أيضًا على مجموعتين داخليتين من بيانات VideoASR: الألمانية، التي تشبه الإنجليزية من حيث الطبيعة المُدمجة (fusional language)، والتركية، التي تمثل لغة مُلتحمة (agglutinative language).

أنظمة ASR هجينة أسرع، وأبسط، وأدق باستخدام وحدات الكلمات | أحدث الأوراق البحثية | HyperAI