CSVC-Net: تصنيف أوامر الصوت المتعددة اللغات باستخدام شبكة عميقة من نوع CNN-LSTM
لقد اعتمدت اللغة البنغالية العامية على العديد من الكلمات الإنجليزية نتيجة التأثير الاستعماري. ومن الشائع في المحادثات البنغالية استخدام مزيج من اللغة الإنجليزية والبنغالية، وهي ظاهرة تُعرف بـ "تعدد الأكواد" (Code-switching - CS). وفي عصر يزداد فيه استخدام هذه الظاهرة، يصبح من الضروري عند بناء نظام تصنيف الأوامر الصوتية تحديد أمر أساسي واحد إلى عدة أشكال مختلفة، تُنطق بلغات متعددة مختلطة. وتركز الدراسات السابقة حول الكلام البنغالي بشكل رئيسي على تصنيف الكلمات الفردية، وغالبًا ما تكون غير كافية في فهم العلاقات الدلالية المعقدة التي تظهر في الجمل. ويقترح هذا البحث نموذجًا يُسمى "CSVC-Net"، وهو بنية قائمة على الشبكة العصبية التلافيفية (CNN) والشبكة العصبية التكرارية (LSTM)، لتصنيف الأوامر الصوتية التي تُظهر تعدد أكواد بين البنغالية والإنجليزية. ولتمثيل الوضع الفعلي بشكل فعّال، يقدم البحث أيضًا مجموعة بيانات جديدة تم تجميعها وتسميتها "Banglish"، وتحتوي على 3840 ملفًا صوتيًا لأوامر حاسوبية مُنطَقة، تابعة لـ 11 فئة، مع أخذ 64 تنويعًا في الاعتبار. ويمر النموذج المقترح بالإشارة إلى الإشارة الصوتية عبر سلسلة من الخطوات المناسبة للتحويل والتعزيز، مما يمكّن النموذج من تحقيق دقة تبلغ 92.08% على مجموعة البيانات المُعدّة. علاوةً على ذلك، تم التحقق من متانة النموذج المقترح من خلال مقارنته ببنيات مختلفة، وتم اختباره في مستويات مختلفة من الضوضاء، مع نتائج مرضية من حيث الدقة، مما يدل على جدوى النموذج في السياقات الحياتية الواقعية.