HyperAIHyperAI
منذ 11 أيام

DEPLAIN: مجموعة نصية ألمانية متوازية تحتوي على ترجمات داخلية إلى لغة بسيطة لتبسيط الجمل والنصوص

Regina Stodden, Omar Momen, Laura Kallmeyer
DEPLAIN: مجموعة نصية ألمانية متوازية تحتوي على ترجمات داخلية إلى لغة بسيطة لتبسيط الجمل والنصوص
الملخص

إن تبسيط النصوص هو مهمة ترجمة داخلية (intralingual translation task) تتضمن تبسيط المستندات أو الجمل المكونة من نص مصدر معقد لصالح جمهور مستهدف. ويعتمد نجاح أنظمة تبسيط النصوص التلقائية بشكل كبير على جودة البيانات المتزامنة (parallel data) المستخدمة في التدريب والتقييم. ولتعزيز تبسيط الجملة وتبسيط المستندات باللغة الألمانية، تقدم هذه الورقة البحثية مجموعة بيانات جديدة تُسمى DEplain، وهي مجموعة بيانات متزامنة مكتوبة بشكل احترافي وتم تزامنها يدويًا، وتُكتب بلغة ألمانية بسيطة (تُعرف بـ "plain DE" أو باللغة الألمانية: "Einfache Sprache"). تتكون DEplain من مجال إخباري (حوالي 500 أزواج من المستندات، وحوالي 13 ألف زوج من الجمل) ومحرّك ويب (مجموعة من حوالي 150 مستندًا مزامنًا، وحوالي 2000 زوج من الجمل المزامنة). بالإضافة إلى ذلك، نعمل على بناء مُحَصِّل (web harvester) ونختبر أساليب تزامن آلية لتسهيل دمج المستندات المتزامنة غير المزامنة، والمستندات التي سيتم نشرها لاحقًا. وباستخدام هذا النهج، نقوم بتوسيع مجموعة بيانات مجال الويب ديناميكيًا، بحيث تمتد حاليًا إلى حوالي 750 زوجًا من المستندات وحوالي 3500 زوجًا من الجمل المزامنة. ونُظهر أن استخدام DEplain لتدريب نموذج تبسيط نصوص يعتمد على معمارية Transformer (seq2seq) يمكن أن يؤدي إلى نتائج واعدة. ونُقدّم هنا مجموعة البيانات، والأساليب المُعدّلة للتزامن للغة الألمانية، ومُحَصِّل الويب، والنموذج المدرب: https://github.com/rstodden/DEPlain.

DEPLAIN: مجموعة نصية ألمانية متوازية تحتوي على ترجمات داخلية إلى لغة بسيطة لتبسيط الجمل والنصوص | أحدث الأوراق البحثية | HyperAI