اكتشاف اللهجات تلقائيًا في الكلام العربي المُذاع

نقوم بدراسة نهج مختلفة لتحديد اللهجات في الكلام المذاع باللغة العربية، باستخدام الخصائص الصوتية والكلامية المستخرجة من نظام التعرف على الكلام، والخصائص الصوتية باستخدام إطار العمل i-vector (i-فيكتور). قمنا بدراستنا لكل من المصنفات التوليدية والمميزة، ودمجنا هذه الخصائص باستخدام آلة متجهات الدعم متعددة الفئات (Support Vector Machine - SVM). قدمنا نتائجنا على مهمة تحديد اللغة بين العربية والإنجليزية، مع دقة بلغت 100٪. استخدمنا هذه الخصائص في مصنف ثنائي لتمييز بين العربية الفصحى والعربية العامية، مع دقة بلغت 100٪. كما نقدم نتائج استخدام الطريقة المقترحة لتمييز بين الخمس لهجات الأكثر شيوعًا في اللغة العربية: وهي المصرية، الخليجية، الشامية، شمال الأفريقية، والعربية الفصحى، مع دقة بلغت 52٪. نناقش أخطاء تحديد اللهجات في سياق التبديل اللهجي بين العربية العامية والعربية الفصحى، ونقارن أنماط الخطأ بين البيانات المعلمة يدويًا ومخرجات مصنفنا. كما نقوم بإصدار بيانات التدريب والاختبار كمجمع قياسي لتحديد اللهجات.