HyperAIHyperAI

Command Palette

Search for a command to run...

هل الانتباه ضروري دائمًا؟ دراسة حالة حول تحديد اللغة من الكلام

Atanu Mandal Santanu Pal Indranil Dutta Mahidas Bhattacharya Sudip Kumar Naskar

الملخص

التعرف على اللغة (LID) هو عملية أساسية مهمة في مجال التعرف الآلي على الكلام (ASR) تتعلق بتحديد اللغة المنطوقة من عينات الصوت. تتطلب الأنظمة المعاصرة التي يمكنها معالجة الكلام باللغات المتعددة من المستخدمين تحديد لغة أو أكثر بشكل صريح قبل الاستخدام. يلعب دور مهم للغاية في السيناريوهات حيث تكون أنظمة التعرف الآلي على الكلام غير قادرة على فهم اللغة المنطوقة في البيئات متعددة اللغات، مما يؤدي إلى نتائج غير ناجحة للتعرف على الكلام. يقدم هذا البحث نموذجًا للتعرف على اللغة يستند إلى الشبكات العصبية التكرارية الإدراكية (CRNN)، مصمم للعمل على خصائص معاملات سبيكتروم الميل-تردد (MFCC) لعينات الصوت. بالإضافة إلى ذلك، نقوم بإعادة إنتاج بعض الأساليب الرائدة حاليًا، وبشكل خاص الشبكة العصبية الإدراكية (CNN) والشبكة العصبية التكرارية الإدراكية القائمة على الانتباه (CRNN مع انتباه)، ونقوم بتحليل مقارن بين هذه الأساليب ونهجنا المستند إلى CRNN. أجرينا تقييمات شاملة على ثلاثة عشر لغة هندية مختلفة، وأدى نموذجنا إلى دقة تصنيف تزيد عن 98٪. يظهر نموذج التعرف على اللغة أداءً عاليًا يتراوح بين 97٪ و100٪ للغات المتشابهة لغوياً. يُظهر النموذج المقترح درجة عالية من القابلية للتوسع إلى لغات إضافية ويُظهر مقاومة قوية للضوضاء، حيث حقق دقة تبلغ 91.2٪ في بيئة ضوضائية عند تطبيقه على مجموعة بيانات اللغات الأوروبية (EU).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp