ThaiLMCut: التدريب المسبق غير المُشرَّف لتقسيم الكلمات التايلاندية

نُقدّم طريقة ThaiLMCut، وهي منهجية شبه مراقبة لتقسيم الكلمات في اللغة التايلاندية، وتستفيد من نموذج لغوي ثنائي الاتجاه (LM) على مستوى الحروف كوسيلة لاستغلال المعرفة اللغوية المفيدة من البيانات غير المُعلَّمة. بعد تدريب نموذج اللغة على مجموعات بيانات كبيرة غير مُعلَّمة، يتم نقل أوزان طبقات التضمين (embedding) والطبقات التكرارية (recurrent) إلى نموذج مراقب لتقسيم الكلمات، الذي يستمر في تحسين هذه الأوزان على مهمة تقسيم الكلمات. أظهرت نتائج تجاربنا أن استخدام نموذج اللغة يؤدي دائمًا إلى تحسين الأداء، وخاصةً عندما تكون كمية البيانات المُعلَّمة صغيرة، حيث ارتفع مؤشر F1 بنسبة تصل إلى 2.02٪. وحتى على مجموعة بيانات مُعلَّمة كبيرة، لا يزال بالإمكان تحقيق تحسن طفيف. كما أظهرت الطريقة فائدة كبيرة في البيئات خارج المجال (out-of-domain)، حيث بلغ تحسن مؤشر F1 ما يصل إلى 3.13٪. وأخيرًا، أثبتنا أن ThaiLMCut يمكن أن تتفوّق على نماذج حديثة مفتوحة المصدر أخرى، حيث حققت مؤشر F1 بلغ 98.78٪ على المعيار القياسي InterBEST2009.