Chinese Text in the Wild 是一个用自然图像中包含的文字创建的大型数据集。该数据集包含 32,285 张带有 1,018,402 个中文字符的图像,远远超出了之前的数据集,这些图片来自腾讯街景,从中国数十个不同的城市获取,没有任何特殊目的。
由于其多样性和复杂性,该数据集存在极大的挑战性。它包含平面文本,凸起文本,城市文本,农村文本,低亮度文本,远处文本,部分遮挡文本等。
对于每个图像,由专家标注其所有中文。对每一个中文字符,该数据集标注了它的底层字符,边界框和 6 个属性,以指示它是否被遮挡,复杂背景,扭曲,3D 文字,艺术字和手写体。