HyperAIHyperAI

Command Palette

Search for a command to run...

DEPLAIN: مجموعة نصية ألمانية متوازية تحتوي على ترجمات داخلية إلى لغة بسيطة لتبسيط الجمل والنصوص

Regina Stodden Omar Momen Laura Kallmeyer

الملخص

إن تبسيط النصوص هو مهمة ترجمة داخلية (intralingual translation task) تتضمن تبسيط المستندات أو الجمل المكونة من نص مصدر معقد لصالح جمهور مستهدف. ويعتمد نجاح أنظمة تبسيط النصوص التلقائية بشكل كبير على جودة البيانات المتزامنة (parallel data) المستخدمة في التدريب والتقييم. ولتعزيز تبسيط الجملة وتبسيط المستندات باللغة الألمانية، تقدم هذه الورقة البحثية مجموعة بيانات جديدة تُسمى DEplain، وهي مجموعة بيانات متزامنة مكتوبة بشكل احترافي وتم تزامنها يدويًا، وتُكتب بلغة ألمانية بسيطة (تُعرف بـ "plain DE" أو باللغة الألمانية: "Einfache Sprache"). تتكون DEplain من مجال إخباري (حوالي 500 أزواج من المستندات، وحوالي 13 ألف زوج من الجمل) ومحرّك ويب (مجموعة من حوالي 150 مستندًا مزامنًا، وحوالي 2000 زوج من الجمل المزامنة). بالإضافة إلى ذلك، نعمل على بناء مُحَصِّل (web harvester) ونختبر أساليب تزامن آلية لتسهيل دمج المستندات المتزامنة غير المزامنة، والمستندات التي سيتم نشرها لاحقًا. وباستخدام هذا النهج، نقوم بتوسيع مجموعة بيانات مجال الويب ديناميكيًا، بحيث تمتد حاليًا إلى حوالي 750 زوجًا من المستندات وحوالي 3500 زوجًا من الجمل المزامنة. ونُظهر أن استخدام DEplain لتدريب نموذج تبسيط نصوص يعتمد على معمارية Transformer (seq2seq) يمكن أن يؤدي إلى نتائج واعدة. ونُقدّم هنا مجموعة البيانات، والأساليب المُعدّلة للتزامن للغة الألمانية، ومُحَصِّل الويب، والنموذج المدرب: https://github.com/rstodden/DEPlain.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp