HyperAIHyperAI
منذ 2 أشهر

تمييز اللغة المنطوقة باستخدام شبكات الCONVnets

Sarthak; Shikhar Shukla; Govind Mittal
تمييز اللغة المنطوقة باستخدام شبكات الCONVnets
الملخص

التعرف على اللغة (LI) هو خطوة مهمة أولى في العديد من أنظمة معالجة الكلام. مع زيادة عدد المساعدين الصوتيين، أصبح التعرف على اللغات في الكلام مجالًا بحثيًا واسع النطاق. لمعالجة مشكلة تحديد اللغات، يمكن اتباع نهج ضمني حيث تكون البيانات الصوتية متاحة فقط للغة، أو نهج صريح حيث يكون النص متاحًا مع نسخته المكتوبة. تركز هذه الورقة على النهج الضمني بسبب عدم وجود بيانات مكتوبة. تقوم هذه الورقة بتقييم النماذج الموجودة وتقدم نموذجًا جديدًا يستند إلى الانتباه (attention) للتعرف على اللغات، والذي يستخدم صور الطيف اللوغاريتمي-مل (log-Mel spectrogram) كمدخلات. كما نقدم فعالية الإشارات الصوتية الخام كسمات لموديلات الشبكات العصبية في مهام التعرف على اللغات. لتدريب وتقييم النماذج، قمنا بتصنيف ست لغات (الإنجليزية، الفرنسية، الألمانية، الإسبانية، الروسية والإيطالية) بمعدل دقة بلغ 95.4% وأربع لغات (الإنجليزية، الفرنسية، الألمانية والإسبانية) بمعدل دقة بلغ 96.3% من مجموعة بيانات VoxForge. يمكن توسيع هذا الأسلوب ليشمل المزيد من اللغات.

تمييز اللغة المنطوقة باستخدام شبكات الCONVnets | أحدث الأوراق البحثية | HyperAI