HyperAIHyperAI

Command Palette

Search for a command to run...

نموذج تسلسلي مبني على انتباه ذي رأس واحد للحصول على نتائج متقدمة في مجال Switchboard

Zoltán Tüske George Saon Kartik Audhkhasi Brian Kingsbury

الملخص

يُعتبر بشكل عام أن نماذج التعرف على الكلام من النوع التسلسلي المباشر (seq2seq) تنافس النماذج الهجينة فقط عندما تكون هناك كمية كبيرة من البيانات التدريبية، على الأقل ألف ساعة. في هذه الورقة، نُظهر أن أداءً متقدمًا جدًا في التعرف يمكن تحقيقه على قاعدة بيانات Switchboard-300 باستخدام نموذج مبني على LSTM مع انتباه ذا رأس واحد. وباستخدام نموذج لغوي يمتد عبر الجمل (cross-utterance language model)، يحقق نظامنا الأحادي المرور المستقل عن المُتحدث أداءً بنسبة خطأ كلمات (WER) 6.4% و12.5% على مجموعتي Switchboard وCallHome ضمن Hub5'00، دون الحاجة إلى قاموس نطق. وعلى الرغم من أن الت.REGULARIZATION الدقيقة وتعزيز البيانات يُعدان حاسمين لتحقيق هذا المستوى من الأداء، فإن التجارب على Switchboard-2000 تُظهر أن لا شيء يفوق فائدة المزيد من البيانات. بشكل عام، يُنتج الجمع بين مختلف تقنيات الت.REGULARIZATION ونموذج بسيط لكنه كبير النطاق حالة جديدة من الأداء القياسي، بتحقيق نسبة خطأ كلمات 4.7% و7.8% على مجموعتي Switchboard وCallHome، باستخدام بيانات SWB-2000 دون الحاجة إلى أي مصادر بيانات خارجية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
نموذج تسلسلي مبني على انتباه ذي رأس واحد للحصول على نتائج متقدمة في مجال Switchboard | مستندات | HyperAI