HyperAIHyperAI
منذ 2 أشهر

MoNoise: نمذجة الضوضاء باستخدام نظام تطبيع مودولي

Rob van der Goot; Gertjan van Noord
MoNoise: نمذجة الضوضاء باستخدام نظام تطبيع مودولي
الملخص

نقترح نموذج MoNoise: وهو نموذج تطبيع يركز على القابلية للعمومية والكفاءة، ويهدف إلى أن يكون قابلاً لإعادة الاستخدام والتكيف بسهولة. التطبيع هو مهمة تحويل النصوص من مجال غير قياسي إلى مجال أكثر قياسية، وفي حالتنا هذه: من بيانات وسائل التواصل الاجتماعي إلى اللغة القياسية. يعتمد النموذج المقترح على توليد مرشحين بطريقة موديلية، حيث يكون كل موديل مسؤولاً عن نوع مختلف من أفعال التطبيع. أهم موديلات التوليد هي نظام تصحيح الأخطاء الإملائية وموديل تمثيل الكلمات (word embeddings). حسب تعريف مهمة التطبيع، يمكن أن تكون قائمة البحث الثابتة حاسمة لأداء النظام. ندرب تصنيفًا عشوائيًا (random forest classifier) لتقييم المرشحين، والذي يعمم بشكل جيد على جميع أنواع أفعال التطبيع المختلفة. معظم الخصائص المستخدمة في الترتيب تنبع من موديلات التوليد؛ بالإضافة إلى هذه الخصائص، تثبت خصائص N-gram أنها مصدر مهم للمعلومات. نظهر أن MoNoise يتفوق على أفضل النماذج الحالية في عدة مقاييس تقييم التطبيع للغتين الإنجليزية والهولندية، والتي تعين جميعها مهمة التطبيع بطريقة مختلفة قليلاً.

MoNoise: نمذجة الضوضاء باستخدام نظام تطبيع مودولي | أحدث الأوراق البحثية | HyperAI