نموذج CRF العصبي لمحاذاة الجمل في تبسيط النص

يُعدّ نجاح نظام تبسيط النصوص مرهونًا بشكل كبير بجودة وكمية أزواج الجمل المعقدة-المبسطة في مجموعة التدريب، والتي تُستخرج من خلال محاذاة الجمل بين المقالات المتوازية. ولتقييم وتحسين جودة محاذاة الجمل، قمنا بإنشاء مجموعتين يدويتين مُعلّمتين من الجمل المُحاذاة من مجموعتي بيانات شائعتين لتبسيط النصوص، وهما Newsela وويكيبيديا. واقترحنا نموذجًا جديدًا للمحاذاة باستخدام نموذج CRF العصبي، الذي لا يعتمد فقط على الطبيعة التسلسلية للجمل في المستندات المتوازية، بل يستخدم أيضًا نموذج جملة ثنائية عصبيًا لالتقاط التشابه الدلالي. أظهرت التجارب أن النهج المقترح يتفوق على جميع الدراسات السابقة في مهمة المحاذاة الأحادية اللغة بمقدار أكثر من 5 نقاط في مؤشر F1. وتم تطبيق مُحاذي CRF لدينا لبناء مجموعتي بيانات جديدتين لتبسيط النصوص، وهما Newsela-Auto وWiki-Auto، اللتان تتميزان بحجم أكبر وجودة أعلى مقارنةً بال datasets الحالية. كما أن نموذج التسلسل إلى التسلسل القائم على مُحول (Transformer) المدرب على مجموعات البيانات الخاصة بنا يحقق حالة جديدة من التميز في تبسيط النصوص، سواء من حيث التقييم الآلي أو التقييم البشري.