HyperAIHyperAI
منذ 2 أشهر

DPCSpell: إطار كاشف-مطهر-مصحح مبني على نموذج Transformer لتصحيح الأخطاء الإملائية في اللغة البنغالية ولغات الهندية ذات الموارد النادرة

Mehedi Hasan Bijoy; Nahid Hossain; Salekul Islam; Swakkhar Shatabda
DPCSpell: إطار كاشف-مطهر-مصحح مبني على نموذج Transformer لتصحيح الأخطاء الإملائية في اللغة البنغالية ولغات الهندية ذات الموارد النادرة
الملخص

تصحيح الأخطاء الإملائية هو مهمة تحديد وإصلاح الكلمات المكتوبة بشكل خاطئ في النصوص. وهو موضوع بحث محتمل ونشيط في معالجة اللغة الطبيعية بسبب تطبيقاته العديدة في فهم اللغة البشرية. تجعل الحروف الصوتية أو البصرية المشابهة ولكن ذات المعنى المختلف من هذه المهمة مهمة صعبة في أي لغة. كانت الجهود السابقة لتصحيح الأخطاء الإملائية في البنغالية ولغات الهند الأخرى ذات الموارد القليلة تركز على الطرق القائمة على القواعد والإحصائيات والتعلم الآلي، والتي وجدناها غير فعالة نسبيًا. وبشكل خاص، فإن الطرق القائمة على التعلم الآلي، التي أظهرت أداءً أفضل من الطرق القائمة على القواعد والإحصائيات، تكون غير فعالة لأنها تصحيح كل حرف بغض النظر عن ملاءمته. في هذا البحث، نقترح إطارًا جديدًا للكشف والتنقية والتصحيح يُسمى DPCSpell ( Detector-Purificator-Corrector ) بناءً على متحولات التقليل من الضوضاء (denoising transformers) مع حل المشكلات السابقة. بالإضافة إلى ذلك، نقدم طريقة لإنشاء مجموعات بيانات كبيرة من الصفر، مما يحل مشكلة قلة الموارد لأي لغة مكتوبة من اليسار إلى اليمين. تظهر النتائج التجريبية فعالية نهجنا، حيث يتفوق على الأساليب الرائدة سابقًا بتحقيق درجة التطابق الدقيق (EM) بنسبة 94.78٪، ودرجة الدقة (precision) بنسبة 0.9487، ودرجة الاسترجاع (recall) بنسبة 0.9478، ودرجة F1 بنسبة 0.948، ودرجة F0.5 بنسبة 0.9483، ودرجة الدقة المعدلة (MA) بنسبة 95.16٪ لتصحيح الأخطاء الإملائية في البنغالية. يمكن الوصول إلى النماذج ومجموعة البيانات بشكل عام عبر الرابط: https://tinyurl.com/DPCSpell.

DPCSpell: إطار كاشف-مطهر-مصحح مبني على نموذج Transformer لتصحيح الأخطاء الإملائية في اللغة البنغالية ولغات الهندية ذات الموارد النادرة | أحدث الأوراق البحثية | HyperAI