الخسارة الموزونة بالتعقيد وإعادة الترتيب المتنوع لتبسيط الجمل

تبسيط الجمل هو مهمة إعادة كتابة النصوص بحيث تصبح أسهل فهمًا. وقد طبقت البحوث الحديثة نماذج التحويل من تسلسل إلى تسلسل (Seq2Seq) على هذه المهمة، مع التركيز بشكل كبير على تحسينات وقت التدريب عبر التعلم التعزيزي وتوسيع الذاكرة. أحد المشكلات الرئيسية في تطبيق نماذج Seq2Seq العامة للتبسيط هو أن هذه النماذج تميل إلى نسخ الجمل الأصلية مباشرة، مما يؤدي إلى إنتاج جمل طويلة ومعقدة نسبيًا. نهدف إلى تخفيف هذه المشكلة من خلال استخدام تقنيتين رئيسيتين. أولاً، ندمج تعقيدات الكلمات الأساسية، كما يتم التنبؤ بها باستخدام نموذج تعقيد الكلمات المتدرج، في دالة الخسارة لدينا أثناء التدريب. ثانيًا، نولد مجموعة كبيرة ومتنوعة من المرشحات المبسطة في وقت الاختبار، وإعادة تصنيفها لتعزيز السلاسة والكفاية والتبسيط. وهنا، نقيس البساطة من خلال نموذج جديد لتعقيد الجمل (sentence complexity model). تسهم هذه الإضافات في تمكين نماذجنا من المنافسة بفعالية مع أفضل الأنظمة الحالية بينما تقوم بإنتاج جمل أكثر بساطة. ونقدم مقاييس التقييم الآلي والبشري القياسية.