摘要
本文介绍了一种用于波斯语(Farsi)文档图像的新大型数据集,命名为SUT,旨在解决在文档图像分析(Document Image Analysis, DIA)任务中获取多样化且大规模真实标签数据所面临的挑战。这些任务包括文档图像分类、文本检测与识别以及信息检索等。该数据集包含62,453张图像,共划分为21个不同类别,其中包含多种身份类文档,其个人信息为合成生成,并叠加于不同背景之上。数据集还配套提供了包含图像标注信息的标签文件。真实标签数据以CSV格式组织,包含图像文件的完整路径及其所嵌入信息的详细描述。为验证SUT数据集在DIA任务中的有效性,研究将其应用于文档分类任务(采用卷积神经网络,取得86%的准确率)以及光学字符识别(OCR)任务(分别使用Tesseract和EasyOCR引擎,字符错误率CER达到0.083和0.072)。SUT数据集为致力于开发与评估波斯语文档图像分析中监督学习模型的研究人员提供了一个具有重要价值的资源。