ملخص لعشر مجموعات بيانات طبية رئيسية: تغطي الإجابة على الأسئلة/الاستدلال/السجلات السريرية الحقيقية/صور الموجات فوق الصوتية/صور الأشعة المقطعية...

مع التكامل العميق لتكنولوجيا الذكاء الاصطناعي في المجال الطبي والابتكار المستمر في تكنولوجيا التصوير الطبي، تتراكم البيانات الطبية، باعتبارها المفتاح لكشف أسرار الحياة، وتنمو بمعدل هائل. لقد اخترقت حدود البحث الطبي التقليدي وأحدثت تغييرات ثورية في تشخيص الأمراض وعلاجها وإدارة الصحة.
مع انتقال البحث الطبي من الاعتماد على الخبرة إلى الاعتماد على البيانات، تباطأت سرعة تكرار أدوات البحث الأساسية تدريجيا.أصبحت جودة مجموعات البيانات الطبية عاملاً أساسياً في تحديد ما إذا كان النموذج يمكنه الانتقال من المفهوم النظري إلى التطبيق العملي السريري.لا تستطيع البيانات الطبية عالية الجودة التقاط خصائص المرض بدقة فحسب، بل توفر أيضًا دعمًا موثوقًا به لصياغة الخطط الطبية الشخصية.
إن إنشاء مجموعة بيانات طبية لا يعني بأي حال من الأحوال مجرد قائمة بسيطة للحالات.بالمقارنة مع جمع البيانات العامة، فإن عملية الحصول على البيانات الطبية تحتاج إلى اتباع المعايير الأخلاقية بشكل صارم لضمان خصوصية المريض والامتثال لاستخدام البيانات.ولضمان علمية وفعالية البيانات، من الضروري توحيد عملية جمع البيانات، وتخصيص مجموعات التدريب ومجموعات التحقق ومجموعات الاختبار بشكل عقلاني، وإنشاء آلية تحديث ديناميكية لتكملة البيانات الجديدة بانتظام للتكيف مع التغيرات في طيف المرض وتطوير تقنيات التشخيص والعلاج. في مواجهة المهام الطبية المعقدة مثل تشخيص الأمراض وتطوير الأدوية والتنبؤ بالصحة، عند إنشاء مجموعات البيانات، من الضروري تحليل احتياجات مختلف المجالات بشكل عميق، ودمج المعلومات المتعددة الوسائط، ومحاكاة السيناريوهات السريرية الحقيقية، وتوفير عينات تعليمية عملية للتدريب على النماذج.
باختصار، في عصر الطب الدقيق، شهد المجتمع الطبي بأكمله نموًا هائلاً في الطلب على مجموعات البيانات الطبية عالية الجودة. في هذا الصدد،لقد قامت HyperAI بتجميع سلسلة من مجموعات البيانات الطبية القيمة للغاية والمستخدمة على نطاق واسع للجميع، والتي تغطي مجالات طبية مهنية متعددة مثل السرطان والقلب والأشعة السينية للعظام وما إلى ذلك.بعضهم يأتون من أفضل كليات الطب والمؤسسات الطبية المرموقة.
انقر هنا لعرض المزيد من مجموعات البيانات مفتوحة المصدر:
ملخص مجموعة البيانات الطبية
1 مجموعة بيانات طبية صينية حقيقية JMED
عنوان التنزيل:https://go.hyper.ai/4jJTa
مجموعة بيانات JMED هي مجموعة بيانات جديدة تعتمد على توزيع البيانات الطبية في العالم الحقيقي. تم إنشاؤه بواسطة فريق Citrus في عام 2025. يتم الحصول على مجموعة البيانات من محادثات مجهولة بين الطبيب والمريض في مستشفى JD Health على الإنترنت ويتم تصفيتها للاحتفاظ بالاستشارات التي تتبع سير عمل تشخيصي موحد. يحتوي الإصدار الأولي على 1000 سجل سريري عالي الجودة يغطي جميع الفئات العمرية (0-90 عامًا) والتخصصات المتعددة. يتضمن كل سؤال 21 خيارًا للإجابة.
على عكس مجموعات البيانات الموجودة، يحاكي JMED البيانات السريرية الحقيقية عن كثب مع تسهيل تدريب النموذج الفعال. وعلى الرغم من أنها تستند إلى بيانات استشارية حقيقية، إلا أنها لا تأتي مباشرة من بيانات طبية فعلية، وبالتالي يمكن لفريق البحث دمج العناصر الرئيسية المطلوبة لتدريب النموذج.
2 مجموعة بيانات الإجابة على أسئلة النصوص الطبية MedQA
الحجم المقدر:125.64 ميجابايت
عنوان التنزيل:https://go.hyper.ai/VfIWx
مجموعة بيانات MedQA عبارة عن مجموعة بيانات للأسئلة والإجابة عليها في المجال الطبي تحاكي أسلوب امتحان الترخيص الطبي في الولايات المتحدة (USMLE). تم إصداره في عام 2020 من قبل فريق بحثي من معهد ماساتشوستس للتكنولوجيا وجامعة هواتشونغ للعلوم والتكنولوجيا. نتيجة البحث ذات الصلة هي "ما هو المرض الذي يعاني منه هذا المريض؟ مجموعة بيانات واسعة النطاق مفتوحة النطاق للإجابة على الأسئلة من الفحوصات الطبية".
تحتوي مجموعات البيانات على 12,723 و34,251 و14,123 سؤالاً على التوالي، وهي مصممة لتقييم قدرة النموذج على فهم المعرفة الطبية وتطبيقها. يتم تقسيمها إلى مجموعة التدريب ومجموعة التطوير ومجموعة الاختبار، والتي تستخدم لتدريب النموذج والتحقق والاختبار على التوالي.
3 الاستدلال الطبي O1 SFT
مجموعات بيانات الاستدلال الطبي
الحجم المقدر:21.71 ميجابايت
عنوان التنزيل:https://go.hyper.ai/iVUWA
تم إصدار مجموعة بيانات Medical o1 Reasoning SFT من قبل الجامعة الصينية في هونغ كونغ ومعهد شنتشن للبيانات الضخمة في عام 2024. وكانت نتيجة الورقة البحثية ذات الصلة هي "HuatuoGPT-o1، نحو التفكير الطبي المعقد مع ماجستير القانون".
تم تصميم مجموعة البيانات هذه لضبط نموذج اللغة الطبية الكبير HuatuoGPT-o1 لتحسين أدائه في مهام التفكير الطبي المعقدة. يعتمد بناء مجموعة البيانات على GPT-4o، الذي يضمن دقة وموثوقية البيانات من خلال البحث عن الأسئلة الطبية القابلة للتحقق والتحقق من الإجابات باستخدام أداة التحقق الطبي.
4 الأشعة ROCOv2
مجموعات بيانات الصور الطبية متعددة الوسائط
الحجم المقدر:17.29 جيجابايت
عنوان التنزيل:https://go.hyper.ai/xs4zS
ROCOv2 (Radiology Object in COntext Version 2) عبارة عن مجموعة بيانات مبتكرة للصور الطبية متعددة الوسائط تجمع بين صور الأشعة والمفاهيم والأوصاف الطبية ذات الصلة. تستخرج مجموعة البيانات هذه الصور الإشعاعية والمفاهيم والأوصاف الطبية ذات الصلة من مجموعة PMC Open Access، وتحسن استخراج المفاهيم وتصفيتها استنادًا إلى مجموعة بيانات ROCO.
تحتوي مجموعة البيانات على 79,789 صورة أشعة تغطي مجموعة متنوعة من الوسائل السريرية والمناطق التشريحية والتوجهات (للأشعة السينية)، ولكل منها وصف مفهوم طبي مطابق. يمكن استخدامه لتدريب نماذج شرح الصور، وتصنيف الصور متعددة العلامات، والتدريب المسبق لنموذج المجال الطبي، وتقييم نموذج التعلم العميق، واسترجاع الصور وتوليد التعليقات التوضيحية، وما إلى ذلك.
5 مجموعة بيانات الحوسبة الطبية MedCalc-Bench
الحجم المقدر:16.04 ميجابايت
عنوان التنزيل:https://go.hyper.ai/pDbcu
MedCalc-Bench عبارة عن مجموعة بيانات مصممة خصيصًا لتقييم قدرات الحوسبة الطبية للنماذج اللغوية الكبيرة (LLMs). تم إصداره بشكل مشترك في عام 2024 من قبل تسع مؤسسات بما في ذلك المكتبة الوطنية للطب والمعاهد الوطنية للصحة وجامعة فيرجينيا. نتيجة الورقة البحثية ذات الصلة هي "MEDCALC-BENCH: تقييم نماذج اللغة الكبيرة للحسابات الطبية"، والتي تم قبولها من قبل NeurIPS 2024.
تحتوي مجموعة البيانات على 10,055 حالة تدريب و1,047 حالة اختبار، تغطي 55 مهمة حوسبة مختلفة. يتضمن كل مثال ملاحظات المريض، وسؤالاً لحساب قيمة سريرية محددة، وقيمة الإجابة النهائية، وحلاً خطوة بخطوة. يتم تقسيمها إلى مجموعات تدريب واختبار، ويمكن استخدامها لضبط برامج LLM لتحسين أدائها في مهام الحوسبة الطبية.
6 مجموعة بيانات المحادثة الطبية للروبوت الطبي الذكي
الحجم المقدر:118.35 ميجابايت
عنوان التنزيل:https://go.hyper.ai/W5OnS
هذه مجموعة بيانات تجريبية مصممة لتشغيل روبوتات الدردشة الطبية، والتي تحتوي على 256,916 محادثة بين المرضى والأطباء.
7 تصوير السرطان المقطعي المحوسب باستخدام TCGA-ESCA
الحجم المقدر:3.79 جيجابايت
عنوان التنزيل:https://go.hyper.ai/eJWQt
TCGA – ESCA Cancer CT Images عبارة عن مجموعة بيانات مرتبطة بسرطان المريء، تم إصدارها بواسطة بوابة بيانات GDC. تحتوي هذه المجموعة من البيانات على 5271 ملف بيانات من 185 شخصًا، وتهدف إلى تتبع عملية تشخيص وعلاج السرطان بأكملها رقميًا وتسجيل نتائج الفحص والوصفات الطبية والفعالية في شكل أرشيفات رقمية.
8 تصوير السرطان المقطعي المحوسب TCGA-KICH
الحجم المقدر:1.62 جيجابايت
عنوان التنزيل:https://go.hyper.ai/iVUWA
TCGA – KICH Cancer CT Images عبارة عن مجموعة بيانات متعلقة بالورم الغدي وسرطان الغدة، نشرتها بوابة بيانات GDC. تحتوي هذه المجموعة من البيانات على 2325 ملف بيانات من 113 شخصًا، وتهدف إلى تتبع عملية تشخيص وعلاج السرطان بأكملها رقميًا وتسجيل نتائج الفحص والوصفات الطبية والفعالية في شكل أرشيفات رقمية.
9 بيانات صور الأشعة المقطعية للسرطان
الحجم المقدر:367.88 ميجابايت
عنوان التنزيل:https://go.hyper.ai/tsMh5
دليل تحليل الصور الطبية المقطعية: صور الأشعة المقطعية من أرشيف تصوير السرطان مع التباين وعمر المريض. مجموعة البيانات هي مجموعة بيانات صور الأشعة المقطعية للسرطان التي أصدرتها Kaggle في عام 2016. الورقة ذات الصلة هي "بيانات الأشعة من مجموعة أطلس جينوم السرطان لسرطان الرئة الغدي [TCGA-LUAD]".
يحتوي هذا الدليل على 475 صورة مقطعية لحالات 69 مريضًا لفحص ومقارنة العلاقة بين عمر المريض وبيانات صور الأشعة المقطعية، وهو جزء من قاعدة بيانات صور الأشعة المقطعية لسرطان الرئة TCGA-LUAD.
10 مجموعة بيانات الأشعة السينية للعظام MURA
الحجم المقدر:6.74 جيجابايت
عنوان التنزيل:https://go.hyper.ai/DlGYH
مجموعة بيانات MURA عبارة عن مجموعة كبيرة من بيانات الأشعة السينية للعظام والتي تهدف إلى تحديد ما إذا كانت العظام طبيعية من خلال الأشعة السينية. تم إصدار مجموعة البيانات هذه من قبل جامعة ستانفورد في عام 2017. الورقة البحثية ذات الصلة هي "MURA: مجموعة بيانات كبيرة للكشف عن الشذوذ في الأشعة السينية للجهاز العضلي الهيكلي".
ويأمل الناشر أن تؤدي مجموعة البيانات إلى تقدم كبير في تقنيات التصوير الطبي التي يمكنها إجراء التشخيصات على مستوى الخبراء لتحسين الرعاية الصحية في المناطق التي يوجد بها عدد محدود من أخصائي الأشعة.