Command Palette
Search for a command to run...
ノイズの多い医療文書画像データセット
Noisy Medical Documentは、OCRおよび医療文書理解タスク向けに設計された、ノイズを強調した医療文書画像のデータセットです。実際の医療現場で文書をスキャンする際に発生する複雑なノイズ干渉問題をシミュレートし、実環境におけるOCRモデルおよび文書理解モデルの堅牢性と汎化能力を向上させることを目的としています。光学文字認識(OCR)、インテリジェント文書分析、医療情報抽出、LayoutLMなどの文書モデルの微調整、マルチモーダルモデル評価、医療自然言語処理などの研究開発タスクに幅広く活用されています。 このデータセットには、病院の請求書500枚と退院サマリー500枚を含む、高精細な合成医療文書画像1,000枚と、完全なJSON構造の注釈データが含まれています。すべての画像は合成データであり、HIPAAのプライバシーおよびセキュリティ基準に完全に準拠しています。
データセットの構成
- 病院の請求書:明細、CPTコード、保険調整、財務概要を含む500件の請求書。
- 退院サマリー:500ページ。病歴(現病歴)、入院経過、検査結果、投薬記録、フォローアップ指示、医師の電子署名などが含まれます。
引用
https://doi.org/10.34740/kaggle/dsv/16402426
@dataset{noisy_medical_docs_2026,
title={Noisy Medical Document Images – Hospital Bills & Discharge Summaries},
author={Devkumar Patel},
year={2026},
publisher={Kaggle},
url={https://www.kaggle.com/datasets/devp1866/noisy-medical-document-images-ocr}
}