HyperAIHyperAI
منذ 11 أيام

مجموعتان جديدتان من البيانات لملخص النص الاستنتاجي باللغة الإيطالية

{Edoardo Federici, Riccardo La Grassa, Ignazio Gallo, Nicola Landro}
مجموعتان جديدتان من البيانات لملخص النص الاستنتاجي باللغة الإيطالية
الملخص

تهدف ملخصة النصوص إلى إنتاج ملخص قصير يحتوي على الأجزاء ذات الصلة من نص معطى. نظرًا لقلة البيانات المتاحة لملخصة النصوص الاستخلاصية (abstractive summarization) في اللغات ذات الموارد المحدودة مثل الإيطالية، نقترح إنشاء مجموعتين جديدتين وحقيقيتين من البيانات، تم جمعهما من موقعين إخباريين إيطاليين، يحتويان على ملخصات متعددة الجملة والنصوص المقابلة لها، بالإضافة إلى مجموعة بيانات تم الحصول عليها عبر الترجمة الآلية لمجموعة بيانات إسبانية لملخصة النصوص. تمثل هاتان المجموعتان حاليًا المجموعتين الوحيدتين المتاحتين بالإيطالية لهذه المهمة. ولتقييم جودة هاتين المجموعتين، استخدمناهما لتدريب نموذج T5-base ونموذج mBART، وحققنا نتائج جيدة مع كلا النموذجين. ولتحسين تقييم النتائج، قارنا أيضًا نفس النموذجين اللذين تم تدريبهما على مجموعات بيانات تم ترجمتها آليًا، مع الملخصات الناتجة بلغة التدريب نفسها، مع الملخصات المترجمة آليًا، مما أظهر تفوق النماذج المستمدة من المجموعات المقترحة.

مجموعتان جديدتان من البيانات لملخص النص الاستنتاجي باللغة الإيطالية | أحدث الأوراق البحثية | HyperAI