منذ 7 أيام
آلي بابا في مهمة IJCNLP-2017 المهمة 1: دمج الميزات النحوية في LSTMs لمهام تشخيص الأخطاء النحوية للصينية
{Linlin Li, Pengjun Xie, Yi Yang, Luo Si, Jun Tao, Guangwei Xu}

الملخص
يقدم هذا البحث نظام فريق NLP في علي بابا المشارك في المهمة المشتركة رقم 1 لمؤتمر IJCNLP 2017 بعنوان تشخيص الأخطاء النحوية في اللغة الصينية (CGED). تتمثل المهمة في تحديد أربع أنواع من الأخطاء النحوية، وهي: الكلمات الزائدة (R)، والكلمات المفقودة (M)، واختيار الكلمة غير المناسبة (S)، والكلمات المُرتّبة بشكل خاطئ (W). نظرنا إلى هذه المهمة على أنها مشكلة تصنيف متسلسل، وصممنا مجموعة من السمات اليدوية لحلها. يعتمد نظامنا بشكل رئيسي على نموذج LSTM-CRF، مع تطبيق ثلاث استراتيجيات تجميع (Ensemble) لتحسين الأداء. وقد حقق نظامنا أعلى درجات F1 على كل من مستوى التعرف ومستوى تحديد الموقع. وبالتحديد، في مستوى تحديد الموقع—which يُعدّ الأصعب من بين المستويات—حققنا أفضل الأداء على جميع المقاييس.