HyperAI

النص الصيني في مجموعة بيانات الأحرف الصينية البرية

التاريخ

منذ 3 أعوام

المؤسسة

رابط النشر

ctwdataset.github.io

الترخيص

其他

مساعدة التنزيل
特色图像

"النص الصيني في البرية" عبارة عن مجموعة بيانات كبيرة تم إنشاؤها من النصوص الموجودة في الصور الطبيعية. تحتوي مجموعة البيانات هذه على 32,285 صورة تحتوي على 1,018,402 حرفًا صينيًا، وهو ما يتجاوز مجموعات البيانات السابقة بكثير. هذه الصور من Tencent Street View وتم الحصول عليها من عشرات المدن المختلفة في الصين دون أي غرض خاص.

تُعد هذه المجموعة من البيانات صعبة للغاية بسبب تنوعها وتعقيدها. يحتوي على نص مسطح، ونص مرتفع، ونص حضري، ونص ريفي، ونص منخفض السطوع، ونص بعيد، ونص مخفي جزئيًا، وما إلى ذلك.

بالنسبة لكل صورة، يتم شرح جميع الأحرف الصينية بواسطة خبراء. بالنسبة لكل حرف صيني، تقوم مجموعة البيانات بشرح الحرف الأساسي الخاص به، والمربع المحيط به، و6 سمات للإشارة إلى ما إذا كان محجوبًا، أو له خلفية معقدة، أو مشوهًا، أو نصًا ثلاثي الأبعاد، أو فنيًا، أو مكتوبًا بخط اليد.