HyperAIHyperAI

Command Palette

Search for a command to run...

مجموعة بيانات النصوص الصينية المبسطة MCTS

Date

منذ عام واحد

Size

71.7 MB

Organization

جامعة بكين للغة والثقافة
جامعة تسينغهوا

Publish URL

github.com

MCTS تعني مجموعة بيانات تبسيط النصوص الصينية متعددة المراجع، وهي مجموعة بيانات تبسيط النصوص الصينية التي أصدرها في عام 2024 فريق بحثي من جامعة بكين للغة والثقافة، وجامعة نورث إيسترن، وجامعة تسينغهوا.MCTS: مجموعة بيانات لتبسيط النصوص الصينية متعددة المراجع"يهدف إلى توفير الموارد الغنية والدعم لمهام تبسيط النصوص في مجال معالجة اللغة الطبيعية.

تحتوي مجموعة البيانات على 723 جملة منظمة معقدة تم اختيارها من مجموعة أخبار بناءً على معيار Penn Chinese Treebank (CTB)، وكل جملة مجهزة بإصدارات متعددة مبسطة يدويًا، مما يجعلها أكبر مجموعة بيانات تقييمية وأكثرها مرجعية لمهمة تبسيط النص الصيني. بالإضافة إلى ذلك، يحدد MCTS ثلاثة أنواع من أساليب إعادة كتابة الجملة: إعادة الصياغة، وضغط الجملة، وتحويل البنية. ويشمل هذا التنوع استراتيجيات مختلفة لتبسيط النصوص.

لا تعد مجموعة بيانات MCTS مناسبة لمجالات البحث مثل القراءة التدريجية والترجمة الآلية فحسب، بل يمكنها أيضًا مساعدة متعلمي اللغة على فهم النصوص المعقدة ومعالجتها بشكل أفضل.

من حيث الاستخدام، يوفر MCTS بيانات موازية للتدريب، والتي يمكن استخدامها لتدريب وتحسين نموذج تبسيط النص الصيني. وفي الوقت نفسه، يستطيع الباحثون أيضًا قياس أداء النظام من خلال مقارنة النص المبسط الذي ينتجه النظام مع إصدارات مبسطة مرجعية متعددة في مجموعة البيانات، باستخدام مؤشرات التقييم التلقائية مثل SARI وBLEU وHSK Level.

MCTS-CN.torrent
Seeding 0Downloading 3Completed 138Total Downloads 279
  • MCTS-CN/
    • README.md
      2.01 KB
    • README.txt
      4.01 KB
      • data/
        • mcts-main.zip
          71.7 MB

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp