Command Palette
Search for a command to run...
Noisy Medical Document 含噪医疗文档图像数据集
Noisy Medical Document 是一个面向 OCR 与医疗文档理解任务的噪声增强医疗文档图像数据集,旨在模拟真实医疗场景中扫描文档所面临的复杂噪声干扰问题,提升 OCR 模型与文档理解模型在真实环境下的鲁棒性与泛化能力,广泛应用于光学字符识别(OCR)、文档智能分析、医疗信息抽取、 LayoutLM 等文档模型微调、多模态模型评测以及医疗自然语言处理等研究与工程任务中。 该数据集包含 1,000 张高保真合成医疗文档图像,其中医院账单 500 张、出院小结 500 张,并配套提供完整的 JSON 结构化标注数据,所有图像均为合成数据,完全符合 HIPAA 隐私安全标准。
数据集构成
- 医院账单(Hospital Bills):500 张,包含分项收费明细、 CPT 编码操作、保险调整及财务汇总
- 出院小结(Discharge Summaries):500 张,包含病史(HPI)、住院过程、检验结果、用药记录、随访说明及电子医师签名
Citation
https://doi.org/10.34740/kaggle/dsv/16402426
@dataset{noisy_medical_docs_2026,
title={Noisy Medical Document Images – Hospital Bills & Discharge Summaries},
author={Devkumar Patel},
year={2026},
publisher={Kaggle},
url={https://www.kaggle.com/datasets/devp1866/noisy-medical-document-images-ocr}
}