HyperAIHyperAI
منذ 11 أيام

نموذج CRF العصبي لمحاذاة الجمل في تبسيط النص

Chao Jiang, Mounica Maddela, Wuwei Lan, Yang Zhong, Wei Xu
نموذج CRF العصبي لمحاذاة الجمل في تبسيط النص
الملخص

يُعدّ نجاح نظام تبسيط النصوص مرهونًا بشكل كبير بجودة وكمية أزواج الجمل المعقدة-المبسطة في مجموعة التدريب، والتي تُستخرج من خلال محاذاة الجمل بين المقالات المتوازية. ولتقييم وتحسين جودة محاذاة الجمل، قمنا بإنشاء مجموعتين يدويتين مُعلّمتين من الجمل المُحاذاة من مجموعتي بيانات شائعتين لتبسيط النصوص، وهما Newsela وويكيبيديا. واقترحنا نموذجًا جديدًا للمحاذاة باستخدام نموذج CRF العصبي، الذي لا يعتمد فقط على الطبيعة التسلسلية للجمل في المستندات المتوازية، بل يستخدم أيضًا نموذج جملة ثنائية عصبيًا لالتقاط التشابه الدلالي. أظهرت التجارب أن النهج المقترح يتفوق على جميع الدراسات السابقة في مهمة المحاذاة الأحادية اللغة بمقدار أكثر من 5 نقاط في مؤشر F1. وتم تطبيق مُحاذي CRF لدينا لبناء مجموعتي بيانات جديدتين لتبسيط النصوص، وهما Newsela-Auto وWiki-Auto، اللتان تتميزان بحجم أكبر وجودة أعلى مقارنةً بال datasets الحالية. كما أن نموذج التسلسل إلى التسلسل القائم على مُحول (Transformer) المدرب على مجموعات البيانات الخاصة بنا يحقق حالة جديدة من التميز في تبسيط النصوص، سواء من حيث التقييم الآلي أو التقييم البشري.

نموذج CRF العصبي لمحاذاة الجمل في تبسيط النص | أحدث الأوراق البحثية | HyperAI