HyperAIHyperAI

Command Palette

Search for a command to run...

Klexikon: مجموعة بيانات ألمانية للتلخيص والتبسيط المشترك

Dennis Aumiller Michael Gertz

الملخص

بشكل تقليدي، يُعامل تبسيط النصوص كمهمة ترجمة أحادية اللغة، حيث يتم محاذاة الجمل بين النصوص المصدرية ونسخها المبسطة لغرض التدريب. ومع ذلك، وخاصةً مع المستندات الطويلة، يلعب تلخيص النص (أو حذف المحتوى الأقل صلةً بشكل كامل) دورًا مهمًا في عملية التبسيط، وهو ما لا يُعكس حاليًا في المجموعات المتاحة للبيانات. وفي الوقت نفسه، تُعد الموارد الخاصة باللغات غير الإنجليزية نادرة بشكل عام، وغالبًا ما تكون غير متاحة لتدريب حلول جديدة. لمعالجة هذه المشكلة، نُعرّف المتطلبات الأساسية لنظام قادر على تلخيص النصوص الطويلة وتبسيطها معًا. ونُفصّل أيضًا إنشاء مجموعة بيانات جديدة للتبسيط والتلخيص المشترك، مبنية على ويكيبيديا الألمانية وقاموس الأطفال الألماني "Klexikon"، وتضم ما يقارب 2900 مستند. ونُطلق نسخة مُحاذاة للوثائق، مع التركيز الخاص على جانب التلخيص، ونُقدّم أدلة إحصائية تُظهر أن هذه الموارد مناسبة جدًا لعملية التبسيط أيضًا. يمكن الوصول إلى الكود والبيانات على GitHub: https://github.com/dennlinger/klexikon


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp