HyperAI

مجموعة بيانات النصوص الصينية المبسطة MCTS

التاريخ

منذ 4 أشهر

الحجم

71.7 MB

المؤسسة

جامعة بكين للغة والثقافة
جامعة تسينغهوا

رابط النشر

github.com

MCTS تعني مجموعة بيانات تبسيط النصوص الصينية متعددة المراجع، وهي مجموعة بيانات تبسيط النصوص الصينية التي أصدرها في عام 2024 فريق بحثي من جامعة بكين للغة والثقافة، وجامعة نورث إيسترن، وجامعة تسينغهوا.MCTS: مجموعة بيانات لتبسيط النصوص الصينية متعددة المراجع"يهدف إلى توفير الموارد الغنية والدعم لمهام تبسيط النصوص في مجال معالجة اللغة الطبيعية.

تحتوي مجموعة البيانات على 723 جملة منظمة معقدة تم اختيارها من مجموعة أخبار بناءً على معيار Penn Chinese Treebank (CTB)، وكل جملة مجهزة بإصدارات متعددة مبسطة يدويًا، مما يجعلها أكبر مجموعة بيانات تقييمية وأكثرها مرجعية لمهمة تبسيط النص الصيني. بالإضافة إلى ذلك، يحدد MCTS ثلاثة أنواع من أساليب إعادة كتابة الجملة: إعادة الصياغة، وضغط الجملة، وتحويل البنية. ويشمل هذا التنوع استراتيجيات مختلفة لتبسيط النصوص.

لا تعد مجموعة بيانات MCTS مناسبة لمجالات البحث مثل القراءة التدريجية والترجمة الآلية فحسب، بل يمكنها أيضًا مساعدة متعلمي اللغة على فهم النصوص المعقدة ومعالجتها بشكل أفضل.

من حيث الاستخدام، يوفر MCTS بيانات موازية للتدريب، والتي يمكن استخدامها لتدريب وتحسين نموذج تبسيط النص الصيني. وفي الوقت نفسه، يستطيع الباحثون أيضًا قياس أداء النظام من خلال مقارنة النص المبسط الذي ينتجه النظام مع إصدارات مبسطة مرجعية متعددة في مجموعة البيانات، باستخدام مؤشرات التقييم التلقائية مثل SARI وBLEU وHSK Level.

MCTS-CN.torrent
البذر 0التنزيل 1مكتمل 48إجمالي التنزيلات 88
  • MCTS-CN/
    • README.md
      2.01 KB
    • README.txt
      4.01 KB
      • data/
        • mcts-main.zip
          71.7 MB