HyperAIHyperAI
منذ 11 أيام

أصداء الإسكندرية: مورد كبير للتلخيص متعدد اللغات للكتب

Alessandro Scirè, Simone Conia, Simone Ciciliano, Roberto Navigli
أصداء الإسكندرية: مورد كبير للتلخيص متعدد اللغات للكتب
الملخص

في السنوات الأخيرة، ركزت الأبحاث في مجال تلخيص النصوص بشكل رئيسي على مجال الأخبار، حيث تكون النصوص عادةً قصيرة وتمتلك خصائص تخطيطية قوية. أما مهمة تلخيص الكتب الكاملة، فتفرض تحديات إضافية يصعب التصدي لها باستخدام الموارد الحالية، نظرًا لصغر حجمها وانعدام توفرها إلا باللغة الإنجليزية. لتجاوز هذه القيود، نقدم "أصداء الإسكندرية" أو باختصار "أصداء"، وهي موارد كبيرة لتلخيص الكتب متعددة اللغات. تتميز "أصداء" بثلاثة مجموعات بيانات جديدة: (أ) أصداء-ويكي، لتلخيص الكتب متعدد اللغات؛ (ب) أصداء-إكسوم، لتلخيص كتب متعدد اللغات بشكل شديد التكثيف؛ (ج) أصداء-فيري سوم، لتلخيص الكتب باستخلاص المحتوى. إلى حد معرفتنا، تمثل "أصداء"، بفضل آلاف الكتب والملخصات التي تحتويها، أكبر مورد متاح، والأول من نوعه متعدد اللغات، حيث يغطي 5 لغات و25 زوجًا من اللغات. بالإضافة إلى موارد "أصداء"، نقدم أيضًا نموذجًا أساسيًا جديدًا يعتمد على الاستخلاص أولاً ثم التلخيص الاستخلاصي (extractive-then-abstractive)، وبناءً على نتائج تجاربنا التحليلية والتحليل اليدوي للملخصات المُنتجة، نجادل بأن هذا النموذج أكثر ملاءمة لتلخيص الكتب مقارنةً بالنهج الاستخلاصية البسيطة. ونُطلق مواردنا وبرمجياتنا عبر الرابط التالي: https://github.com/Babelscape/echoes-from-alexandria، في أمل أن يُشجع هذا الإطلاق أبحاثًا مبتكرة في مجال تلخيص الكتب متعدد اللغات.

أصداء الإسكندرية: مورد كبير للتلخيص متعدد اللغات للكتب | أحدث الأوراق البحثية | HyperAI