HyperAIHyperAI

Command Palette

Search for a command to run...

Noisy Medical Document 含噪医疗文档图像数据集

日期

3 小时前

发布 URL

www.kaggle.com

许可证

CC BY-SA 4.0

Noisy Medical Document 是一个面向 OCR 与医疗文档理解任务的噪声增强医疗文档图像数据集,旨在模拟真实医疗场景中扫描文档所面临的复杂噪声干扰问题,提升 OCR 模型与文档理解模型在真实环境下的鲁棒性与泛化能力,广泛应用于光学字符识别(OCR)、文档智能分析、医疗信息抽取、 LayoutLM 等文档模型微调、多模态模型评测以及医疗自然语言处理等研究与工程任务中。 该数据集包含 1,000 张高保真合成医疗文档图像,其中医院账单 500 张、出院小结 500 张,并配套提供完整的 JSON 结构化标注数据,所有图像均为合成数据,完全符合 HIPAA 隐私安全标准。

数据集构成

  • 医院账单(Hospital Bills):500 张,包含分项收费明细、 CPT 编码操作、保险调整及财务汇总
  • 出院小结(Discharge Summaries):500 张,包含病史(HPI)、住院过程、检验结果、用药记录、随访说明及电子医师签名

Citation

https://doi.org/10.34740/kaggle/dsv/16402426

@dataset{noisy_medical_docs_2026,
title={Noisy Medical Document Images – Hospital Bills & Discharge Summaries},
author={Devkumar Patel},
year={2026},
publisher={Kaggle},
url={https://www.kaggle.com/datasets/devp1866/noisy-medical-document-images-ocr}
}

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供