HyperAIHyperAI
منذ 2 أشهر

هل الانتباه ضروري دائمًا؟ دراسة حالة حول تحديد اللغة من الكلام

Atanu Mandal; Santanu Pal; Indranil Dutta; Mahidas Bhattacharya; Sudip Kumar Naskar
هل الانتباه ضروري دائمًا؟ دراسة حالة حول تحديد اللغة من الكلام
الملخص

التعرف على اللغة (LID) هو عملية أساسية مهمة في مجال التعرف الآلي على الكلام (ASR) تتعلق بتحديد اللغة المنطوقة من عينات الصوت. تتطلب الأنظمة المعاصرة التي يمكنها معالجة الكلام باللغات المتعددة من المستخدمين تحديد لغة أو أكثر بشكل صريح قبل الاستخدام. يلعب دور مهم للغاية في السيناريوهات حيث تكون أنظمة التعرف الآلي على الكلام غير قادرة على فهم اللغة المنطوقة في البيئات متعددة اللغات، مما يؤدي إلى نتائج غير ناجحة للتعرف على الكلام. يقدم هذا البحث نموذجًا للتعرف على اللغة يستند إلى الشبكات العصبية التكرارية الإدراكية (CRNN)، مصمم للعمل على خصائص معاملات سبيكتروم الميل-تردد (MFCC) لعينات الصوت. بالإضافة إلى ذلك، نقوم بإعادة إنتاج بعض الأساليب الرائدة حاليًا، وبشكل خاص الشبكة العصبية الإدراكية (CNN) والشبكة العصبية التكرارية الإدراكية القائمة على الانتباه (CRNN مع انتباه)، ونقوم بتحليل مقارن بين هذه الأساليب ونهجنا المستند إلى CRNN. أجرينا تقييمات شاملة على ثلاثة عشر لغة هندية مختلفة، وأدى نموذجنا إلى دقة تصنيف تزيد عن 98٪. يظهر نموذج التعرف على اللغة أداءً عاليًا يتراوح بين 97٪ و100٪ للغات المتشابهة لغوياً. يُظهر النموذج المقترح درجة عالية من القابلية للتوسع إلى لغات إضافية ويُظهر مقاومة قوية للضوضاء، حيث حقق دقة تبلغ 91.2٪ في بيئة ضوضائية عند تطبيقه على مجموعة بيانات اللغات الأوروبية (EU).