Klexikon: مجموعة بيانات ألمانية للتلخيص والتبسيط المشترك

بشكل تقليدي، يُعامل تبسيط النصوص كمهمة ترجمة أحادية اللغة، حيث يتم محاذاة الجمل بين النصوص المصدرية ونسخها المبسطة لغرض التدريب. ومع ذلك، وخاصةً مع المستندات الطويلة، يلعب تلخيص النص (أو حذف المحتوى الأقل صلةً بشكل كامل) دورًا مهمًا في عملية التبسيط، وهو ما لا يُعكس حاليًا في المجموعات المتاحة للبيانات. وفي الوقت نفسه، تُعد الموارد الخاصة باللغات غير الإنجليزية نادرة بشكل عام، وغالبًا ما تكون غير متاحة لتدريب حلول جديدة. لمعالجة هذه المشكلة، نُعرّف المتطلبات الأساسية لنظام قادر على تلخيص النصوص الطويلة وتبسيطها معًا. ونُفصّل أيضًا إنشاء مجموعة بيانات جديدة للتبسيط والتلخيص المشترك، مبنية على ويكيبيديا الألمانية وقاموس الأطفال الألماني "Klexikon"، وتضم ما يقارب 2900 مستند. ونُطلق نسخة مُحاذاة للوثائق، مع التركيز الخاص على جانب التلخيص، ونُقدّم أدلة إحصائية تُظهر أن هذه الموارد مناسبة جدًا لعملية التبسيط أيضًا. يمكن الوصول إلى الكود والبيانات على GitHub: https://github.com/dennlinger/klexikon