تكييف المجال لنماذج فصل الكلمات التايلاندية باستخدام التجميع المتكدس
{Sarana Nutanong Ekapol Chuangsuwanich Raheem Sarwar Wannaphong Phatthiyaphaibun Peerat Limkonchotiwat}

الملخص
مثل العديد من مهام معالجة اللغة الطبيعية، يعتمد فصل الكلمات في اللغة التايلاندية على المجال. وقد اعتمدت الباحثون على التعلم الناقل لتعديل نموذج موجود بحيث يتناسب مع مجال جديد. ومع ذلك، لا يمكن تطبيق هذا النهج في الحالات التي نستطيع التفاعل فيها فقط مع طبقات الإدخال والإخراج للنماذج، والمعروفة أيضًا بـ"الصناديق السوداء". نقترح حلًا يعتمد على نمط التصفية والتحسين، مبنيًا على منهجية التجميع المتتالي (stacked-ensemble learning)، لمعالجة هذه القيود المتعلقة بالصناديق السوداء. أجرينا دراسات تجريبية واسعة المدى، وقارنا طريقةً مقترحة بمناهج حديثة ونماذج التعلم الناقل. أظهرت النتائج التجريبية أن الحل المقترح يُعد طريقة فعّالة للتكيف الحدودي، وتحقيق أداءً مشابهًا لأداء منهج التعلم الناقل.
المعايير القياسية
| معيار قياسي | المنهجية | المقاييس |
|---|---|---|
| thai-word-segmentation-on-ws160 | Stacked Ensemble (CRF) | F1-score: 0.952 |
| thai-word-tokenization-on-best-2010 | Stacked Ensemble (CRF) | F1-Score: 0.9812 |
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.