HyperAI

مجموعة بيانات محرف العربية المكتوبة بخط اليد

* هذه المجموعة من البيانات تدعم الاستخدام عبر الإنترنت.انقر هنا للقفز.

مجموعة بيانات محرم هي مجموعة بيانات للتعلم الآلي تركز على التعرف على الكتابة اليدوية باللغة العربية، تم إنشاؤها بواسطة مهرين سعيد وآخرون. في عام 2024. نتائج الورقة ذات الصلة هي "محرّف: مجموعة بيانات مخطوطات اللغة العربية المكتوبة بخط اليد للتعرف على النصوص المتصلةتم قبولها من قِبل NeurIPS 24. تحتوي هذه المجموعة على أكثر من 1.6 ألف صورة لصفحات تاريخية مكتوبة بخط اليد، نُسخت من قِبل خبراء أرشيف اللغة العربية. تُرفق كل صورة مستند بإحداثيات المضلع المكانية لسطور النص، بالإضافة إلى معلومات حول عناصر الصفحة الأساسية. صُممت مجموعة بيانات "مُحَرَّف" لتطوير أحدث التقنيات في مجال التعرف على النصوص المكتوبة بخط اليد (HTR)، ليس فقط للمخطوطات العربية، بل أيضًا للنصوص المتصلة بها.

تحتوي مجموعة البيانات على مجموعة متنوعة من أساليب الكتابة ومجموعة واسعة من أنواع المستندات، بما في ذلك الرسائل الشخصية والمذكرات والملاحظات والشعر وسجلات الكنيسة والمراسلات القانونية. في ورقة البحث، يصف المؤلفون عملية الحصول على البيانات، والميزات البارزة وإحصائيات مجموعة البيانات، ويقدمون نتائج أساسية أولية تم الحصول عليها من خلال تدريب الشبكات العصبية التلافيفية باستخدام هذه البيانات.

تنقسم مجموعة بيانات المَحَرَف إلى قسمين: الجزء العام ويحتوي على 1216 صورة ويتم توزيعه بموجب ترخيص CC BY-NC-SA 4.0؛ يحتوي الجزء المحظور على 428 صورة ويتم توزيعه بموجب ترخيص خاص ولا يمكن تنزيله إلا عن طريق الاتصال بكارلوس يونس في مركز فينيكس للدراسات اللبنانية. لا يجوز استخدام هذا الجزء من البيانات إلا لأغراض البحث ولا يجوز إعادة توزيعه. بالإضافة إلى ذلك، تم إنشاء مجموعة بيانات المَحَرَف باستخدام برنامج Scribearabic للتعليق التوضيحي، ويمكن أن يساعد دليل هذا البرنامج المستخدمين على فهم كيفية عمله. يمكن عرض ملفات الصور الموجودة في مجموعة البيانات، إلى جانب التعليقات التوضيحية والنصوص والعلامات المقابلة، باستخدام عارض PAGE-XML.

لقطة شاشة
Muharaf.torrent
البذر 1التنزيل 1مكتمل 57إجمالي التنزيلات 80
  • Muharaf/
    • README.md
      2.27 KB
    • README.txt
      4.54 KB
      • data/
        • 11492215.zip
          9.83 GB