HyperAI

مجموعة بيانات المحادثة الصينية للأطفال من ChildMandarin

التاريخ

منذ شهر واحد

الحجم

3.4 GB

المؤسسة

رابط النشر

github.com

مجموعة بيانات ChildMandarin هي مجموعة بيانات شاملة للكلام الماندرين للأطفال الذين تتراوح أعمارهم بين 3 إلى 5 سنوات، تم إصدارها في عام 2025 من قبل معهد أبحاث الذكاء الاصطناعي ومختبر تكنولوجيا اللغة البشرية (مختبر HLT) في كلية علوم الكمبيوتر بجامعة نانكاي. تم تصميم مجموعة البيانات هذه لحل مشكلة ندرة بيانات خطاب الماندرين لهذه الفئة العمرية. نتائج الورقة ذات الصلة هي:ChildMandarin: مجموعة بيانات شاملة عن لغة الماندرين للأطفال الصغار الذين تتراوح أعمارهم بين 3 و5 سنوات"، والذي يهدف إلى دعم تطوير مجالات البحث ذات الصلة مثل التعرف على كلام الأطفال والتحقق من المتحدث.

ميزات مجموعة البيانات:

  • حجم بيانات كبير: 397 طفلاً، بإجمالي 41.25 ساعة من المحادثة بين 3-5 سنوات، وهو ما له مزايا معينة بين مجموعات البيانات المماثلة
  • تغطية جغرافية واسعة: يتم جمع البيانات من 22 مقاطعة ومدينة، مما يضمن التنوع الإقليمي وتغطية اللهجات المختلفة وعادات الكلام
  • التفاعل الطبيعي والواقعي: يتم اعتماد طريقة جمع الحوار الموجه من قبل الوالدين لمحاكاة مشاهد الاتصال الطبيعية وجعل الصوت أكثر واقعية.

ChildMandarin.torrent
البذر 1التنزيل 0مكتمل 14إجمالي التنزيلات 22
  • ChildMandarin/
    • README.md
      1.64 KB
    • README.txt
      3.27 KB
      • data/
        • ChildMandarin.zip
          3.4 GB