مجموعة بيانات المحادثة الصينية للأطفال من ChildMandarin
التاريخ
الحجم
عنوان URL للنشر
رابط الورقة
مجموعة بيانات ChildMandarin هي مجموعة بيانات شاملة للكلام الماندرين للأطفال الذين تتراوح أعمارهم بين 3 إلى 5 سنوات، تم إصدارها في عام 2025 من قبل معهد أبحاث الذكاء الاصطناعي ومختبر تكنولوجيا اللغة البشرية (مختبر HLT) في كلية علوم الكمبيوتر بجامعة نانكاي. تم تصميم مجموعة البيانات هذه لحل مشكلة ندرة بيانات خطاب الماندرين لهذه الفئة العمرية. نتائج الورقة ذات الصلة هي:ChildMandarin: مجموعة بيانات شاملة عن لغة الماندرين للأطفال الصغار الذين تتراوح أعمارهم بين 3 و5 سنوات"، والذي يهدف إلى دعم تطوير مجالات البحث ذات الصلة مثل التعرف على كلام الأطفال والتحقق من المتحدث.
ميزات مجموعة البيانات:
- حجم بيانات كبير: 397 طفلاً، بإجمالي 41.25 ساعة من المحادثة بين 3-5 سنوات، وهو ما له مزايا معينة بين مجموعات البيانات المماثلة
- تغطية جغرافية واسعة: يتم جمع البيانات من 22 مقاطعة ومدينة، مما يضمن التنوع الإقليمي وتغطية اللهجات المختلفة وعادات الكلام
- التفاعل الطبيعي والواقعي: يتم اعتماد طريقة جمع الحوار الموجه من قبل الوالدين لمحاكاة مشاهد الاتصال الطبيعية وجعل الصوت أكثر واقعية.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.