HyperAIHyperAI
منذ 11 أيام

RedPenNet لتصحيح الأخطاء النحوية: الإخراج إلى رموز، والانتباه إلى الفواصل

Bohdan Didenko, Andrii Sameliuk
RedPenNet لتصحيح الأخطاء النحوية: الإخراج إلى رموز، والانتباه إلى الفواصل
الملخص

تُشترك المهام المتعلقة بتحرير النصوص، بما في ذلك دمج الجمل، وتقسيم الجمل، وإعادة صياغة النصوص، وتبسيط النصوص، وتصحيح الأخطاء النحوية (GEC)، في صفة مشتركة تتمثل في التعامل مع تسلسلات إدخال وإخراج متقاربة للغاية. يقع هذا المجال من البحث في تقاطع حالتين متعارف عليهما من المجالات: (أ) النماذج التسلسلية التلقائية الكاملة التي تُستخدم بشكل شائع في مهام مثل الترجمة الآلية العصبية (NMT)، و(ب) تقنيات تسمية التسلسلات التي تُستخدم بشكل شائع في مهام مثل تحديد الصيغة النحوية (Part-of-speech tagging)، وتحديد الكيانات المعرفة (Named-entity recognition - NER)، وغيرها من المهام المشابهة. وفي سعي الباحثين نحو بناء هيكل متوازن، ظهرت حلول مبتكرة وغير تقليدية عديدة، والتي نناقشها في قسم الأعمال ذات الصلة. إن نهجنا المُقدَّم لمعالجة مهام تحرير النصوص يُسمى RedPenNet، ويهدف إلى تقليل التكرار المعماري والبارامتري الذي يظهر في نماذج التسلسل إلى التصحيحات المحددة، مع الحفاظ على المزايا شبه التلقائية التي تتمتع بها هذه النماذج. وقد حققت نماذجنا نقاطًا تصل إلى $F_{0.5}$ قدرها 77.60 على معيار BEA-2019 (الاختبار)، وهو ما يمكن اعتباره من أفضل النتائج الحالية، باستثناء النماذج المدمجة، وبلغت 67.71 على معيار UAGEC+Fluency (الاختبار).تُجرى هذه الدراسة في سياق ورشة عمل UNLP 2023، حيث عُرضت كورقة بحثية ضمن المهمة المشتركة في تصحيح الأخطاء النحوية (GEC) للغة الأوكرانية. ويهدف هذا البحث إلى تطبيق منهج RedPenNet لمعالجة مشكلة تصحيح الأخطاء النحوية في اللغة الأوكرانية.