تعلم التبسيط من خلال التسمية الصريحة لأزواج النصوص المعقدة-المبسطة

تشكل بحوث التبسيط النصي حاليًا صعوبتين رئيسيتين: (أ) قلة البيانات المتوازية عالية الجودة المتعلقة بالتبسيط، و(ب) عدم توفر تسميات صريحة للعمليات الخاصة بالتبسيط، مثل الحذف أو الاستبدال، في البيانات الحالية. وعلى الرغم من أن مجموعة بيانات نيوسلا التي تم تقديمها مؤخرًا قد خففت من المشكلة الأولى، فإن عمليات التبسيط ما زالت تحتاج إلى التعلم مباشرة من النصوص المتوازية باستخدام نماذج "مربع أسود" ونهج متكامل من البداية إلى النهاية، بدلًا من الاعتماد على التسميات الصريحة. غالبًا ما تختلف أزواج الجمل البسيطة والمعقدة في هذه البيانات بشكل كبير جدًا، مما يجعل التعميم أمرًا صعبًا. كما أن النماذج المتكاملة من البداية إلى النهاية تجعل من الصعب تفسير ما يتم فعلاً تعلمه من البيانات. نقترح منهجًا يُفكك مهمة تبسيط النص إلى مشكلاتها الفرعية. ونُعدّ طريقة تُمكّن من تحديد العمليات تلقائيًا داخل مجموعة بيانات متوازية، ونُقدّم نهجًا يعتمد على تصنيف التسلسلات استنادًا إلى هذه التسميات. وأخيرًا، نقدّم رؤى حول أنواع التحولات التي يمكن لأساليب مختلفة نمذجتها.