HyperAIHyperAI

Command Palette

Search for a command to run...

تمييز اللغة المنطوقة باستخدام شبكات الCONVnets

Sarthak Shikhar Shukla Govind Mittal

الملخص

التعرف على اللغة (LI) هو خطوة مهمة أولى في العديد من أنظمة معالجة الكلام. مع زيادة عدد المساعدين الصوتيين، أصبح التعرف على اللغات في الكلام مجالًا بحثيًا واسع النطاق. لمعالجة مشكلة تحديد اللغات، يمكن اتباع نهج ضمني حيث تكون البيانات الصوتية متاحة فقط للغة، أو نهج صريح حيث يكون النص متاحًا مع نسخته المكتوبة. تركز هذه الورقة على النهج الضمني بسبب عدم وجود بيانات مكتوبة. تقوم هذه الورقة بتقييم النماذج الموجودة وتقدم نموذجًا جديدًا يستند إلى الانتباه (attention) للتعرف على اللغات، والذي يستخدم صور الطيف اللوغاريتمي-مل (log-Mel spectrogram) كمدخلات. كما نقدم فعالية الإشارات الصوتية الخام كسمات لموديلات الشبكات العصبية في مهام التعرف على اللغات. لتدريب وتقييم النماذج، قمنا بتصنيف ست لغات (الإنجليزية، الفرنسية، الألمانية، الإسبانية، الروسية والإيطالية) بمعدل دقة بلغ 95.4% وأربع لغات (الإنجليزية، الفرنسية، الألمانية والإسبانية) بمعدل دقة بلغ 96.3% من مجموعة بيانات VoxForge. يمكن توسيع هذا الأسلوب ليشمل المزيد من اللغات.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تمييز اللغة المنطوقة باستخدام شبكات الCONVnets | مستندات | HyperAI