HyperAIHyperAI
منذ 11 أيام

نهج مقسّم وسُلّم لملخص الوثائق الطويلة

Alexios Gidiotis, Grigorios Tsoumakas
نهج مقسّم وسُلّم لملخص الوثائق الطويلة
الملخص

نقدم طريقة جديدة من نوع التقسيم والانطلاق لاستخلاص ملخصات نصوص طويلة باستخدام الشبكات العصبية. تعتمد هذه الطريقة على هيكل التسلسل النصي (السياقي) للنص، وتستخدم مقياس التشابه بين الجمل لتقسيم المشكلة إلى مجموعة من مشكلات الاستخلاص الأصغر والأبسط. بشكل خاص، نقوم بتفكيك النص الطويل وموجزه إلى أزواج متعددة من المدخلات (المصدر) والنتائج (الهدف)، والتي تُستخدم في تدريب نموذج يتعلم استخلاص كل جزء من النص بشكل منفصل. ثم يتم دمج هذه الملخصات الجزئية معًا لإنتاج ملخص نهائي شامل. وباستخدام هذه المنهجية، يمكننا تفكيك مشكلة استخلاص ملخصات النصوص الطويلة إلى مشكلات أصغر وأبسط، مما يقلل من التعقيد الحسابي ويزيد من عدد أمثلة التدريب، مع تقليل الضوضاء في الملخصات المستهدفة مقارنة بالمنهجية القياسية. ونُظهر أن هذه الطريقة، عند دمجها مع نماذج استخلاص مختلفة، بما في ذلك نماذج RNN المتسلسلة ونماذج Transformers، يمكن أن تؤدي إلى تحسين أداء الاستخلاص. وتحقيق أفضل النماذج نتائج تُوازي أحدث النتائج المنشورة في مجموعتين من البيانات المفتوحة للنصوص الأكاديمية.

نهج مقسّم وسُلّم لملخص الوثائق الطويلة | أحدث الأوراق البحثية | HyperAI