EMNIST: امتداد لـ MNIST إلى الحروف المكتوبة بخط اليد

أصبحت مجموعة البيانات MNIST معيارًا قياسيًا لأنظمة التعلم والتصنيف ورؤية الحاسوب. وقد ساهم في انتشارها الواسع طبيعة المهمة القابلة للفهم والبديهية، حجمها النسبي الصغير ومتطلبات التخزين، بالإضافة إلى سهولة الوصول والاستخدام لمجموعة البيانات نفسها. تم استخلاص مجموعة البيانات MNIST من مجموعة بيانات أكبر تُعرف باسم NIST Special Database 19 التي تحتوي على أرقام، والحروف المكتوبة بخط اليد (الحروف الكبيرة والحروف الصغيرة). يُقدم هذا البحث نسخة معدلة من مجموعة البيانات NIST الكاملة، والتي أطلقنا عليها اسم Extended MNIST (EMNIST)، وتتبع نفس الأسلوب المستخدم لإنشاء مجموعة البيانات MNIST. النتيجة هي مجموعات بيانات تشكل مهمات تصنيف أكثر تحديًا تتضمن الحروف والأرقام، وتشارك في نفس بنية الصور والمعلمات مثل مهمة MNIST الأصلية، مما يسمح بالتوافق المباشر مع جميع المصنفات والأنظمة الموجودة. يتم تقديم نتائج المعايير القياسية مع التحقق من صحة عملية التحويل من خلال مقارنة نتائج التصنيف للأرقام المحولة من NIST مع الأرقام في MNIST.