
摘要
MNIST数据集已成为学习、分类和计算机视觉系统的一个标准基准。其广泛采用的原因在于任务的可理解性和直观性、相对较小的数据量和存储需求以及数据库本身的易用性和可访问性。MNIST数据库源自一个更大的数据集,即NIST特殊数据库19(NIST Special Database 19),该数据集包含手写数字、大写字母和小写字母。本文介绍了一种基于完整NIST数据集的变体,我们称之为扩展MNIST(Extended MNIST,简称EMNIST),该变体采用了与创建MNIST数据集相同的转换方法。结果生成了一系列更具挑战性的分类任务数据集,这些任务涉及字母和数字,并且保留了与原始MNIST任务相同的数据结构和参数,从而可以直接兼容所有现有的分类器和系统。文中还展示了基准测试结果,并通过比较转换后的NIST数字与MNIST数字的分类结果来验证转换过程的有效性。