HyperAIHyperAI

Command Palette

Search for a command to run...

مجموعة بيانات صور المستندات الطبية المشوشة

التاريخ

منذ 3 ساعات

عنوان URL للنشر

www.kaggle.com

الترخيص

CC BY-SA 4.0

مجموعة بيانات "الوثائق الطبية المشوشة" هي مجموعة بيانات تضم صورًا لوثائق طبية مُحسّنة بالتشويش، مصممة خصيصًا لمهام التعرف الضوئي على الحروف (OCR) وفهم الوثائق الطبية. تهدف هذه المجموعة إلى محاكاة مشاكل التداخل المعقدة الناتجة عن التشويش والتي تُصادف عند مسح الوثائق في سيناريوهات طبية حقيقية، وتحسين متانة وقدرة نماذج التعرف الضوئي على الحروف ونماذج فهم الوثائق على التعميم في بيئات واقعية. وتُستخدم على نطاق واسع في مهام البحث والهندسة، مثل التعرف الضوئي على الحروف، وتحليل الوثائق الذكي، واستخراج المعلومات الطبية، وضبط نماذج الوثائق مثل LayoutLM، وتقييم النماذج متعددة الوسائط، ومعالجة اللغة الطبيعية الطبية. تحتوي هذه المجموعة من البيانات على 1000 صورة اصطناعية عالية الدقة لوثائق طبية، تشمل 500 فاتورة مستشفى و500 ملخص خروج، بالإضافة إلى بيانات شرح كاملة بتنسيق JSON. جميع الصور بيانات اصطناعية وتتوافق تمامًا مع معايير الخصوصية والأمان الخاصة بقانون HIPAA.

تكوين مجموعة البيانات

  • فواتير المستشفى: 500 فاتورة، بما في ذلك الرسوم المفصلة، ورموز CPT، وتعديلات التأمين، والملخصات المالية.
  • ملخصات الخروج: 500 صفحة، بما في ذلك التاريخ الطبي (HPI)، وعملية دخول المستشفى، ونتائج المختبر، وسجلات الأدوية، وتعليمات المتابعة، والتوقيع الإلكتروني للطبيب.

الاستشهاد

https://doi.org/10.34740/kaggle/dsv/16402426

@dataset{noisy_medical_docs_2026,
title={Noisy Medical Document Images – Hospital Bills & Discharge Summaries},
author={Devkumar Patel},
year={2026},
publisher={Kaggle},
url={https://www.kaggle.com/datasets/devp1866/noisy-medical-document-images-ocr}
}

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp