HyperAIHyperAI

Command Palette

Search for a command to run...

شبكات عصبية متعددة اللغات ذات طبقات عميقة جداً للاعتراف التلقائي بالكلام على مستوى الكلمات

Author1 Author2

الملخص

الشبكات العصبية التلافيفية (CNNs) هي مكون قياسي في العديد من أنظمة التعرف على الكلام المستمر ذات المفردات الكبيرة (LVCSR) الحالية. ومع ذلك، لم تواكب الشبكات العصبية التلافيفية في مجال LVCSR التطورات الحديثة في المجالات الأخرى حيث توفر الشبكات العصبية الأعمق أداءً أفضل. في هذا البحث، نقترح عدة تحسينات هندسية في الشبكات العصبية التلافيفية لـ LVCSR. أولاً، نقدم بنية شبكة تلافيفية عميقة جداً تتضمن ما يصل إلى 14 طبقة وزن. هناك عدة طبقات تلافيفية قبل كل طبقة تجميع، مع نوى صغيرة بحجم 3x3، مستوحاة من بنية VGG Imagenet 2014. ثانياً، نقدم شبكات عصبية تلافيفية متعددة اللغات مع طبقات متعددة غير مرتبطة. وأخيراً، نقدم خصائص إدخال متعددة المقاييس بهدف استغلال المزيد من السياق بمكلفة حسابية ضئيلة.لقد قمنا بتقييم هذه التحسينات أولاً على مهمة Babel للتعرف على الكلام بموارد محدودة، مما حقق تحسيناً مطلقاً بنسبة 5.77% في معدل الخطأ الكلماتي (WER) مقارنة بالنموذج الأساسي PLP DNN من خلال تدريب شبكتنا العصبية التلافيفية على بيانات مشتركة لست لغات مختلفة. ثم قمنا بتقييم الشبكات العصبية التلافيفية العميقة جداً على معيار Hub5'00 ( باستخدام 262 ساعة من بيانات التدريب SWB-1 ) ، حيث حققت نسبة خطأ كلمات قدرها 11.8% بعد التدريب باستخدام دالة الخسارة التقاطعية (cross-entropy)، وهو ما يمثل تحسيناً بنسبة 1.4% في معدل الخطأ الكلماتي (10.6% نسبياً) مقارنة بأفضل نتيجة تم نشرها حتى الآن للشبكات العصبية التلافيفية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp