HyperAIHyperAI

Command Palette

Search for a command to run...

ThaiLMCut: التدريب المسبق غير المُشرَّف لتقسيم الكلمات التايلاندية

Hinrich Sch\utze Michael Matuschek Liliana Mamani Sanchez Ivan Bilan Suteera Seeha Johannes Huber

الملخص

نُقدّم طريقة ThaiLMCut، وهي منهجية شبه مراقبة لتقسيم الكلمات في اللغة التايلاندية، وتستفيد من نموذج لغوي ثنائي الاتجاه (LM) على مستوى الحروف كوسيلة لاستغلال المعرفة اللغوية المفيدة من البيانات غير المُعلَّمة. بعد تدريب نموذج اللغة على مجموعات بيانات كبيرة غير مُعلَّمة، يتم نقل أوزان طبقات التضمين (embedding) والطبقات التكرارية (recurrent) إلى نموذج مراقب لتقسيم الكلمات، الذي يستمر في تحسين هذه الأوزان على مهمة تقسيم الكلمات. أظهرت نتائج تجاربنا أن استخدام نموذج اللغة يؤدي دائمًا إلى تحسين الأداء، وخاصةً عندما تكون كمية البيانات المُعلَّمة صغيرة، حيث ارتفع مؤشر F1 بنسبة تصل إلى 2.02٪. وحتى على مجموعة بيانات مُعلَّمة كبيرة، لا يزال بالإمكان تحقيق تحسن طفيف. كما أظهرت الطريقة فائدة كبيرة في البيئات خارج المجال (out-of-domain)، حيث بلغ تحسن مؤشر F1 ما يصل إلى 3.13٪. وأخيرًا، أثبتنا أن ThaiLMCut يمكن أن تتفوّق على نماذج حديثة مفتوحة المصدر أخرى، حيث حققت مؤشر F1 بلغ 98.78٪ على المعيار القياسي InterBEST2009.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
ThaiLMCut: التدريب المسبق غير المُشرَّف لتقسيم الكلمات التايلاندية | مستندات | HyperAI