HyperAIHyperAI

Command Palette

Search for a command to run...

حول حدود التعرف على الكلام الإنجليزي في المحادثات

Zoltán Tüske George Saon Brian Kingsbury

الملخص

في عملنا السابق، أظهرنا أن نموذج المُشفر-المُفكِّك (encoder-decoder) ذو الرأس الواحد قادر على تحقيق نتائج متميزة في مجال التعرف على الكلام التفاعلي. وفي هذا البحث، نحسن النتائج بشكل أكبر لكل من Switchboard 300 و 2000. من خلال استخدام مُحسِّن مُحسَّن، ومتجهات متحدثين (speaker vector embeddings)، وتمثيلات كلام بديلة، نقلل من أخطاء نظام LSTM الخاص بنا في Switchboard-300 بنسبة 4% نسبية. تعويض نموذج المُفكِّك باستخدام طريقة نسبة الاحتمالات يسمح بدمج أكثر كفاءة لنموذج لغوي خارجي، ونبلغ عن معدل خطأ الكلمات (WER) قدره 5.9% و 11.5% في أجزاء SWB و CHM من Hub5'00 باستخدام نماذج LSTM بسيطة للغاية. دراستنا تأخذ أيضًا بنظر الاعتبار النموذج المطابق (conformer) المقترح حديثًا، وأنماط لغوية أكثر تقدمًا تعتمد على انتباه ذاتي (self-attention). بشكل عام، يظهر النموذج المطابق أداءً مشابهًا لنظام LSTM؛ ومع ذلك، فإن تركيبهما وفك شفرتهما باستخدام نموذج لغوي مُحسَّن يحقق رقماً قياسياً جديداً في Switchboard-300، بمعدل خطأ الكلمات (WER) قدره 5.0% و 10.0% في SWB و CHM. تم تأكيد نتائجنا أيضًا على Switchboard-2000، وأبلغنا عن مستوى جديد غير مسبوق، حيث تم الوصول تقريبًا إلى حدود المعيار المرجعي (benchmark).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp