2달 전
EMNIST: MNIST의 확장판으로서 손글씨 알파벳을 포함함
Gregory Cohen; Saeed Afshar; Jonathan Tapson; André van Schaik

초록
MNIST 데이터셋은 학습, 분류 및 컴퓨터 비전 시스템의 표준 벤치마크가 되었습니다. 이 데이터셋이 널리 채택된 이유는 작업의 이해 가능성과 직관성, 비교적 작은 크기와 저장 공간 요구사항, 그리고 데이터베이스 자체의 접근성과 사용 용이성이 있습니다. MNIST 데이터베이스는 숫자와 대소문자 손글씨 문자를 포함하는 더 큰 데이터셋인 NIST 특수 데이터베이스 19(NIST Special Database 19)에서 파생되었습니다. 본 논문에서는 MNIST 데이터셋을 생성할 때 사용된 동일한 변환 방법론을 따르는 완전한 NIST 데이터셋의 변형체인 확장 MNIST(Extended MNIST, EMNIST)를 소개합니다. 그 결과로, 이미지 구조와 매개변수가 원래 MNIST 작업과 동일하면서도, 숫자와 문자를 포함하는 더 어려운 분류 작업을 구성하는 여러 데이터셋들이 만들어졌습니다. 이는 모든 기존 분류기 및 시스템과 직접 호환될 수 있도록 합니다. 벤치마크 결과와 함께 변환 과정의 유효성을 검증하기 위해 변환된 NIST 숫자와 MNIST 숫자의 분류 결과를 비교한 내용이 제시됩니다.