HyperAI초신경

야생 중국어 텍스트 중국어 문자 데이터 세트

날짜

3년 전

기관

라이선스

其他

카테고리

다운로드 도움말
特色图像

야생의 중국어 텍스트는 자연 이미지에 포함된 텍스트로 만들어진 대규모 데이터 세트입니다. 이 데이터 세트에는 1,018,402개의 중국어 문자가 포함된 32,285개의 이미지가 포함되어 있어 기존 데이터 세트보다 훨씬 많습니다. 이 이미지는 텐센트 스트리트 뷰에서 가져온 것으로, 특별한 목적 없이 중국 내 수십 개 도시에서 수집되었습니다.

이 데이터 세트는 다양성과 복잡성으로 인해 매우 어렵습니다. 여기에는 평면 텍스트, 돌출 텍스트, 도시 텍스트, 시골 텍스트, 밝기가 낮은 텍스트, 먼 텍스트, 부분적으로 가려진 텍스트 등이 포함됩니다.

각 이미지의 모든 중국어 문자에는 전문가가 주석을 달았습니다. 각 중국어 문자에 대해 데이터 세트는 기본 문자, 경계 상자, 6가지 속성에 주석을 달아 가려져 있는지, 배경이 복잡한지, 왜곡되었는지, 3D 텍스트인지, 예술적인지, 손으로 쓴 것인지를 나타냅니다.