HyperAIHyperAI

Command Palette

Search for a command to run...

DPCSpell: إطار كاشف-مطهر-مصحح مبني على نموذج Transformer لتصحيح الأخطاء الإملائية في اللغة البنغالية ولغات الهندية ذات الموارد النادرة

Mehedi Hasan Bijoy Nahid Hossain Salekul Islam Swakkhar Shatabda

الملخص

تصحيح الأخطاء الإملائية هو مهمة تحديد وإصلاح الكلمات المكتوبة بشكل خاطئ في النصوص. وهو موضوع بحث محتمل ونشيط في معالجة اللغة الطبيعية بسبب تطبيقاته العديدة في فهم اللغة البشرية. تجعل الحروف الصوتية أو البصرية المشابهة ولكن ذات المعنى المختلف من هذه المهمة مهمة صعبة في أي لغة. كانت الجهود السابقة لتصحيح الأخطاء الإملائية في البنغالية ولغات الهند الأخرى ذات الموارد القليلة تركز على الطرق القائمة على القواعد والإحصائيات والتعلم الآلي، والتي وجدناها غير فعالة نسبيًا. وبشكل خاص، فإن الطرق القائمة على التعلم الآلي، التي أظهرت أداءً أفضل من الطرق القائمة على القواعد والإحصائيات، تكون غير فعالة لأنها تصحيح كل حرف بغض النظر عن ملاءمته. في هذا البحث، نقترح إطارًا جديدًا للكشف والتنقية والتصحيح يُسمى DPCSpell ( Detector-Purificator-Corrector ) بناءً على متحولات التقليل من الضوضاء (denoising transformers) مع حل المشكلات السابقة. بالإضافة إلى ذلك، نقدم طريقة لإنشاء مجموعات بيانات كبيرة من الصفر، مما يحل مشكلة قلة الموارد لأي لغة مكتوبة من اليسار إلى اليمين. تظهر النتائج التجريبية فعالية نهجنا، حيث يتفوق على الأساليب الرائدة سابقًا بتحقيق درجة التطابق الدقيق (EM) بنسبة 94.78٪، ودرجة الدقة (precision) بنسبة 0.9487، ودرجة الاسترجاع (recall) بنسبة 0.9478، ودرجة F1 بنسبة 0.948، ودرجة F0.5 بنسبة 0.9483، ودرجة الدقة المعدلة (MA) بنسبة 95.16٪ لتصحيح الأخطاء الإملائية في البنغالية. يمكن الوصول إلى النماذج ومجموعة البيانات بشكل عام عبر الرابط: https://tinyurl.com/DPCSpell.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp