منذ 2 أشهر
تصحيح الإملاء باستخدام محول التقليل من الضوضاء
Alex Kuznetsov; Hector Urdiales

الملخص
نقدم طريقة جديدة لتصحيح الأخطاء الإملائية في سلاسل المدخلات القصيرة، مثل استعلامات البحث أو الكلمات الفردية. في جوهر هذه الطريقة تكمن إجراءات لإنشاء أخطاء إملائية اصطناعية تتبع أنماط الأخطاء التي يرتكبها البشر بشكل وثيق. يتم استخدام هذا الإجراء لتدريب نموذج تصحيح الأخطاء الإملائية المستند إلى هندسة الترانسفورمر (Transformer). هذا النموذج يتم تشغيله حاليًا في محرك بحث منتجات HubSpot. نوضح أن نهجنا لإنشاء الأخطاء الاصطناعية أفضل من الممارسة الشائعة لإضافة الضوضاء، والتي تتجاهل أنماط الأخطاء البشرية. كما نبين كيفية توسيع نهجنا ليشمل البيئات ذات الموارد المحدودة وتدريب نماذج تصحيح الأخطاء الإملائية للغات العربية واليونانية والروسية وسيتسوانا (Setswana) دون استخدام أي بيانات مصنفة.