HyperAIHyperAI

Command Palette

Search for a command to run...

ノイズの多い医療文書画像データセット

日付

3時間前

ライセンス

CC BY-SA 4.0

Noisy Medical Documentは、OCRおよび医療文書理解タスク向けに設計された、ノイズを強調した医療文書画像のデータセットです。実際の医療現場で文書をスキャンする際に発生する複雑なノイズ干渉問題をシミュレートし、実環境におけるOCRモデルおよび文書理解モデルの堅牢性と汎化能力を向上させることを目的としています。光学文字認識(OCR)、インテリジェント文書分析、医療情報抽出、LayoutLMなどの文書モデルの微調整、マルチモーダルモデル評価、医療自然言語処理などの研究開発タスクに幅広く活用されています。 このデータセットには、病院の請求書500枚と退院サマリー500枚を含む、高精細な合成医療文書画像1,000枚と、完全なJSON構造の注釈データが含まれています。すべての画像は合成データであり、HIPAAのプライバシーおよびセキュリティ基準に完全に準拠しています。

データセットの構成

  • 病院の請求書:明細、CPTコード、保険調整、財務概要を含む500件の請求書。
  • 退院サマリー:500ページ。病歴(現病歴)、入院経過、検査結果、投薬記録、フォローアップ指示、医師の電子署名などが含まれます。

引用

https://doi.org/10.34740/kaggle/dsv/16402426

@dataset{noisy_medical_docs_2026,
title={Noisy Medical Document Images – Hospital Bills & Discharge Summaries},
author={Devkumar Patel},
year={2026},
publisher={Kaggle},
url={https://www.kaggle.com/datasets/devp1866/noisy-medical-document-images-ocr}
}

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています