HyperAIHyperAI
منذ 2 أشهر

التفصيل متعدد اللهجات للغة العربية: bi-LSTM-CRF مقابل SVM

Mohamed Eldesouki; Younes Samih; Ahmed Abdelali; Mohammed Attia; Hamdy Mubarak; Kareem Darwish; Kallmeyer Laura
التفصيل متعدد اللهجات للغة العربية: bi-LSTM-CRF مقابل SVM
الملخص

تعد تقسيم الكلمات في اللغة العربية ضرورية لمجموعة متنوعة من تطبيقات معالجة اللغة الطبيعية مثل الترجمة الآلية واسترجاع المعلومات. يشمل التقسيم فصل الكلمات إلى جذورها وأجزائها الثابتة والمتحركة (clitics). في هذا البحث، نقارن بين طريقتين لتقسيم أربعة لهجات عربية رئيسية باستخدام بضعة آلاف فقط من أمثلة التدريب لكل لهجة. الطريقتان تتمثلان في صياغة المشكلة كمشكلة تصنيف حيث يقوم تصنيف SVM باختيار أفضل تقسيم، وكمشكلة تسمية سلسلة حيث يحدد شبكات العصبونات التكرارية ثنائية الاتجاه (bi-LSTM RNN) مصحوبة بـ CRF أفضل المواقع لتقسيم الكلمات. تمكنا من تحقيق نتائج تقسيم جيدة للهجات جميعها باستخدام بيانات تدريب محدودة للغاية. كما أظهرنا أن استخدام بيانات اللغة العربية الفصحى للتكيف النطقي وافتراض استقلالية السياق يحسنان النتائج الإجمالية.

التفصيل متعدد اللهجات للغة العربية: bi-LSTM-CRF مقابل SVM | أحدث الأوراق البحثية | HyperAI