HyperAIHyperAI
منذ 9 أيام

KOHTD: مجموعة بيانات النص المكتوب بخط اليد البدائي الكازاخي

Nazgul Toiganbayeva, Mahmoud Kasem, Galymzhan Abdimanap, Kairat Bostanbekov, Abdelrahman Abdallah, Anel Alimova, Daniyar Nurseitov
KOHTD: مجموعة بيانات النص المكتوب بخط اليد البدائي الكازاخي
الملخص

رغم الانتقال إلى تبادل المعلومات الرقمي، لا يزال هناك العديد من الوثائق، مثل الفواتير، والضرائب، والمراسلات الداخلية، واستبيانات التقييم، والبيانات التاريخية، والإجابات على أسئلة الامتحانات، التي تتطلب إدخالات يدوية. وفي هذا السياق، هناك حاجة إلى تطبيق تقنية تمييز النصوص المكتوبة بخط اليد (Handwritten Text Recognition - HTR)، وهي طريقة آلية لفك تشفير السجلات باستخدام الحاسوب. يُعد تمييز الخط اليدوي تحديًا كبيرًا بسبب عدد لا نهائي تقريبًا من الطرق التي يمكن أن يكتب بها شخص نفس الرسالة. وفي هذا الاقتراح، نقدم دراسة حول تمييز النصوص المكتوبة بخط اليد باللغة الكازاخية، حيث يُعد توفر مجموعة بيانات شاملة للنصوص المكتوبة بخط اليد باللغة الكازاخية أمرًا ضروريًا، خاصةً مع عدم توفر أي مجموعة بيانات مماثلة حتى الآن. في هذه الورقة، نقترح مجموعة بيانات مكثفة للنصوص المكتوبة بخط اليد الكازاخية (KOHTD)، التي تتضمن 3000 ورقة امتحان مكتوبة بخط اليد، وأكثر من 140335 صورة مُقسَّمة (Segmented Images)، وحوالي 922010 رموز. ويمكن أن تُستخدم هذه المجموعة من قبل الباحثين في مجالات تمييز الخط اليدوي باستخدام التعلم العميق والتعلم الآلي. وقد استخدمنا في دراساتنا مجموعة متنوعة من الطرق الشائعة لتمييز النصوص، بما في ذلك الأساليب القائمة على CTC والأساليب القائمة على الانتباه (Attention-based). وتُظهر النتائج تنوع مجموعة KOHTD بشكل واضح. بالإضافة إلى ذلك، قمنا بتطوير خوارزمية وراثية (Genetic Algorithm - GA) لتقسيم الأسطر والكلمات، استنادًا إلى تعداد عشوائي لمعامل معين. وتتوفر مجموعة البيانات وشفرة الخوارزمية على الرابط التالي: https://github.com/abdoelsayed2016/KOHTD.

KOHTD: مجموعة بيانات النص المكتوب بخط اليد البدائي الكازاخي | أحدث الأوراق البحثية | HyperAI