HyperAIHyperAI

Command Palette

Search for a command to run...

مجموعة بيانات | من التصوير الطبي/البيانات السريرية إلى أطلس الخلايا/الأسئلة والأجوبة الطبية، 10 مجموعات بيانات رئيسية تغطي سيناريوهات أمراض متعددة

Featured Image

مع انتشار الذكاء الاصطناعي بسرعة في المجال الطبي، أصبحت مجموعات البيانات عالية الجودة تدريجياً الأساس الجوهري لتحسين أداء النموذج وتنفيذ التطبيقات.من التعرف على الصور الطبية إلى دعم القرارات السريرية، وصولاً إلى تحليل الآليات البيولوجية،إن نوع البيانات وحجمها ودقة التعليقات التوضيحية تحدد بشكل مباشر الحد الأعلى لقدرات النموذج وحدود تطبيقه.

من منظور التطوير الشامل، تُظهر مجموعات البيانات الطبية خصائص التطور المتوازي نحو تعدد الوسائط والتحسين.من ناحية،لا تزال بيانات التصوير الطبي، مثل الأشعة السينية والتصوير المقطعي المحوسب والتصوير بالرنين المغناطيسي، هي المصدر الرئيسي. تتميز هذه البيانات ببنية موحدة وشروح واضحة، مما يجعلها مناسبة لتدريب وتقييم نماذج رؤية الحاسوب.على الجانب الآخر،تتزايد أنواع البيانات الأكثر تعقيدًا، بما في ذلك المؤشرات السريرية، والتنبؤ بمخاطر الأمراض، والاستجابة للأدوية، وحتى تسلسل الخلايا المفردة، بسرعة، مما يدفع الذكاء الاصطناعي من "التعرف على الصور" إلى مستويات أعمق من التشخيص بمساعدة الحاسوب وأبحاث علوم الحياة.

تمثل مجموعات البيانات العشر المتعلقة بالطب والتي تم اختيارها في هذه المقالة جانبًا من هذا الاتجاه.يغطي هذا الكتاب سيناريوهات مختلفة للأمراض واتجاهات البحث.ويشمل ذلك بيانات التصوير أو البيانات السريرية المتعلقة بأمراض معينة، بالإضافة إلى أحدث الأبحاث في مجال المعلوماتية الحيوية والأبحاث المتعلقة بالأدوية.

تكشف مراجعة منهجية لهذه المجموعات من البيانات أن البيانات الموحدة والمنظمة لا تزال أساسية لتدريب النماذج وتقييمها، في حين أن القدرة على دمج البيانات متعددة الوسائط والمصادر أصبحت عاملاً رئيسياً يؤثر على أداء النموذج وقدرته على التعميم. كما يساعد التحليل المعمق لهذه الموارد البياناتية على فهم أولويات التطوير الحالية والاتجاه التطوري للذكاء الاصطناعي الطبي بشكل أفضل.

لفترة طويلة،تقوم تقنية الذكاء الاصطناعي الفائق (HyperAI) باستمرار بجمع وتنظيم مجموعات البيانات من مجالات متعددة.لا يقتصر الأمر على توفير مجموعات بيانات مفتوحة المصدر عالية الجودة تغطي مجالات متعددة مثل التصوير الطبي والبيانات السريرية والمعلوماتية الحيوية في المجال الطبي، بل يوفر أيضًا بوابة موحدة لاكتشاف البيانات واستخدامها للباحثين والمطورين في جميع أنحاء العالم للعديد من المهام/المجالات مثل الذكاء المجسد والقيادة الذاتية والتعرف الضوئي على الأحرف والفهم متعدد الوسائط والإجابة الذكية على الأسئلة.

المزيد من مجموعات البيانات عالية الجودة:

https://hyper.ai/datasets

الأوبئة والجائحات التاريخية مجموعة بيانات تاريخية عالمية للأوبئة

* استخدم عبر الإنترنت:

https://go.hyper.ai/WW6gh

تُعدّ مجموعة بيانات الأوبئة والجائحات التاريخية مجموعة بيانات شاملة تغطي أحداث الأوبئة الكبرى في التاريخ العالمي، وهي مصممة لتوفير مورد جاهز للتحليل. تحتوي هذه المجموعة على 50 حدثًا وبائيًا رئيسيًا، بدءًا من طاعون أنطونين عام 165 ميلاديًا وصولًا إلى كوفيد-19 وجدري القرود عام 2023، لتغطي بذلك جميع الحقب والمناطق وأنواع مسببات الأمراض. 

سرطان الرئة السريري مجموعة البيانات السريرية لسرطان الرئة

* استخدم عبر الإنترنت:

https://go.hyper.ai/0YW09

Lung Cancer Clinical عبارة عن مجموعة بيانات سريرية تحتوي على 1500 سجل مريض تمتد من عام 2015 إلى عام 2025، وتغطي 60 دولة عبر جميع المناطق الست لمنظمة الصحة العالمية (WHO).

توفر هذه المجموعة من البيانات معلومات سريرية وديموغرافية ونمط حياة وجينية وتشخيصية مفصلة حول سرطان الرئة. وقد جُمعت البيانات من صحيفة حقائق منظمة الصحة العالمية وإحصاءات أبحاث السرطان العالمية (GLOBOCAN 2020)، وهي مناسبة لتحليل البيانات الاستكشافي، وتصنيف التعلم الآلي، وتحليل البقاء على قيد الحياة، وتحليل الاتجاهات الجغرافية، وأبحاث الصحة العامة.

ردود الفعل الدوائية الضارة مجموعة بيانات محاكاة ردود الفعل الدوائية الضارة

* استخدم عبر الإنترنت:

https://go.hyper.ai/hJg6S

صُممت هذه المجموعة من البيانات لمحاكاة تقارير اليقظة الدوائية المتعلقة بالتفاعلات الدوائية الضارة، وتهدف إلى دعم البحوث وتجارب التعلم الآلي وتطوير الخوارزميات في مجال مراقبة سلامة الأدوية. وتُنشأ تقارير سلامة الحالات (ICSRs) اصطناعياً، مستوحاة من أنظمة اليقظة الدوائية الواقعية مثل نظام الإبلاغ عن الأحداث الضائرة التابع لإدارة الغذاء والدواء الأمريكية (FDA FAERS) ونظام EudraVigilance التابع لوكالة الأدوية الأوروبية (EMA). 

تسلط هذه المجموعة من البيانات الضوء بشكل خاص على ندرة وعدم توازن الآثار الجانبية الخطيرة للأدوية: فمعظم التقارير عبارة عن ردود فعل خفيفة، في حين أن النتائج الشديدة والمميتة نادرة نسبيًا (إجمالي الحالات الشديدة/المميتة حوالي 4-51 حالة)، مما يعكس نقص الإبلاغ والتحيز في توزيع الشدة الشائع في مراقبة ما بعد التسويق.

تسلسل الحمض النووي الريبوزي أحادي الخلية الشامل للسرطان مجموعة بيانات أطلس النسخ أحادي الخلية للسرطان

* استخدم عبر الإنترنت:

https://go.hyper.ai/X0FCx

تحتوي هذه المجموعة من البيانات على بيانات التعبير الجيني لـ 7930 خلية مفردة، تغطي ثلاث حالات بيولوجية مختلفة: الحالة المناعية الأساسية السليمة، والورم السائل (سرطان الدم النخاعي)، والبيئة الدقيقة للورم الصلب (الورم الميلانيني). وتهدف إلى بناء معيار تحليل متكامل للخلايا المفردة عبر مجموعات متعددة، لتوفير معيار لتقييم أداء الخوارزميات والمقارنة المنهجية، وتصحيح تأثير الدُفعات متعددة المجموعات، وتحليل حالة الإنهاك المناعي، واستخراج المؤشرات الحيوية عبر أنواع الأورام المختلفة. 

الأشياء - التصوير بالرنين المغناطيسي الوظيفي مجموعة بيانات التصوير بالرنين المغناطيسي الوظيفي

* استخدم عبر الإنترنت:

https://go.hyper.ai/KYaOn

تُعدّ THINGS-fMRI مجموعة بيانات تصوير بالرنين المغناطيسي الوظيفي (fMRI) عالية الكثافة لأبحاث الإدراك المكاني، وقد أصدرتها كلٌّ من المعهد الوطني للصحة العقلية التابع للمعاهد الوطنية للصحة (NIH)، ومعهد ماكس بلانك للإدراك البشري وعلوم الدماغ في ألمانيا، وكلية الطب بجامعة جيسن، إلى جانب مؤسسات أخرى. وتهدف هذه المجموعة إلى توصيف تمثيل الدماغ البشري البصري والدلالي للأشياء في العالم الحقيقي بشكل منهجي. 

تنتمي هذه المجموعة من البيانات إلى قاعدة بيانات THINGS، وتحتوي على 1854 مفهومًا للأشياء و26107 صورة مختارة ومصنفة يدويًا لأشياء في مشاهد طبيعية. في تجربة التصوير بالرنين المغناطيسي الوظيفي، شاهد المشاركون صورًا للأشياء من قاعدة بيانات صور THINGS أثناء التصوير، بينما تم تسجيل إشارات BOLD للدماغ بأكمله لتحليل التوزيع المكاني للأشياء في الدماغ. 

أكمل ثلاثة مشاركين 12 جلسة مسح، شاهدوا خلالها ما مجموعه 8740 صورة فريدة تغطي 720 فئة من الأشياء. عُرضت الصور بسرعة وبشكل متسلسل، مع تركيز نظر المشاركين على مركز الصورة. وقد ضمنت مهمة الكشف عن الشذوذ استمرار تركيز الانتباه، كما عُرضت بعض الصور بشكل متكرر في جلسات مختلفة لدعم تحليل استقرار التمثيل وقابلية التكرار. 

بالإضافة إلى البيانات الوظيفية الموجهة نحو المهام، توفر مجموعة البيانات أيضًا معلومات مسح هيكلية ومساعدة غنية، بما في ذلك صور هيكلية عالية الدقة T1/T2، وتصوير الأوعية الدموية (TOF، T2*)، وخرائط المجال، وتجارب تحديد الموقع الوظيفي، وبيانات تحديد الموقع الطوبولوجي للشبكية، وبيانات الاتصال الوظيفي في حالة الراحة، مما يوفر الدعم لنمذجة وظائف الدماغ متعددة المستويات. 

أشياء - ميغ مجموعة بيانات تخطيط الدماغ المغناطيسي (MEG)

* استخدم عبر الإنترنت:

https://go.hyper.ai/VdJ6F

THINGS-MEG هي مجموعة بيانات تخطيط الدماغ المغناطيسي (MEG) لأبحاث الإدراك البصري للأشياء، وقد أصدرها المعهد الوطني للصحة العقلية التابع للمعاهد الوطنية للصحة (NIH)، ومعهد ماكس بلانك للإدراك البشري وعلوم الدماغ في ألمانيا، وكلية الطب بجامعة جيسن، إلى جانب مؤسسات أخرى. تسجل هذه المجموعة النشاط الكهرومغناطيسي للدماغ على مستوى أجزاء من الألف من الثانية عندما يشاهد الأشخاص صورًا لأشياء، وتُستخدم لتحليل الديناميكيات الزمنية لمعالجة الأشياء. 

تنتمي هذه المجموعة من البيانات إلى بيانات الأشياء (THINGS). في تجربة تخطيط الدماغ المغناطيسي (MEG)، شاهد المشاركون عينة تمثيلية من صور الأشياء. تضمنت التجربة 12 جلسة مستقلة (عدد المشاركين = 4)، احتوت على 22448 صورة فريدة تغطي جميع فئات الأشياء البالغ عددها 1854 فئة. عُرضت الصور بسرعة وبشكل متسلسل (بفاصل زمني متوسط يبلغ حوالي 1.5 ± 0.2 ثانية)، مما تطلب من المشاركين الحفاظ على تثبيت النظر على مركز الشاشة طوال مدة العرض.

مجموعة بيانات تخطيط الدماغ الكهربائي THINGS-EEG

* استخدم عبر الإنترنت:

https://go.hyper.ai/IVwu6

THINGS-EEG هي مجموعة بيانات تخطيط كهربية الدماغ (EEG) لأبحاث الإدراك بالأشياء، وقد أصدرها المعهد الوطني للصحة العقلية التابع للمعاهد الوطنية للصحة (NIH)، ومعهد ماكس بلانك للإدراك البشري وعلوم الدماغ في ألمانيا، وكلية الطب بجامعة جيسن، إلى جانب مؤسسات أخرى. تسجل هذه المجموعة نشاط تخطيط كهربية الدماغ لخمسين شخصًا أثناء مشاهدتهم صورًا لأشياء، وتُستخدم لتحليل الديناميكيات الزمنية والتمثيلات الإدراكية لمعالجة الأشياء. 

تنتمي هذه المجموعة من البيانات إلى قاعدة بيانات THINGS. في هذه التجربة، شاهد المشاركون عينةً تمثيليةً من المحفزات من قاعدة بيانات صور THINGS، والتي تضم 22248 صورة تغطي 1854 مفهومًا للأشياء. عُرضت الصور بطريقة عرض مرئي تسلسلي سريع (RSVP)، مما استلزم من المشاركين تثبيت نظرهم على مركز الصورة. عُرضت بعض الصور بشكل متكرر لتحليل استقرار التمثيلات العصبية.

الصحة ونمط الحياة مجموعة بيانات نمط الحياة الصحي

* استخدم عبر الإنترنت:

https://go.hyper.ai/PyiDm

الصحة ونمط الحياة هي مجموعة بيانات حول نمط الحياة الصحي صدرت في عام 2025. وتهدف إلى استكشاف العلاقة بين عوامل نمط الحياة والحالة الصحية الفردية وتوفير أساس تجريبي لنمذجة التنبؤ بالصحة وتحليل المجموعات واستخراج البيانات. 

تحتوي هذه المجموعة من البيانات على 100,000 سجل فردي، مُقدّمة بصيغة CSV. تغطي هذه البيانات نطاقًا واسعًا من المعلومات، بدءًا من البيانات الديموغرافية وصولًا إلى الحالة الصحية وأنماط الحياة. لا تحتوي البيانات على أي معلومات شخصية حقيقية؛ فجميع القيم مُركّبة بشكل اصطناعي، مع الحفاظ على الاتساق الإحصائي مع التوزيعات الواقعية.

مجموعة بيانات الإجابة على أسئلة النصوص الطبية MedQA

* استخدم عبر الإنترنت:

https://go.hyper.ai/CyIG3

MedQA، وهي مجموعة بيانات مفتوحة المصدر للمجال الطبي تم تطويرها بواسطة فريق بحثي من معهد ماساتشوستس للتكنولوجيا وجامعة هوا تشونغ للعلوم والتكنولوجيا، تحاكي أسلوب امتحان الترخيص الطبي في الولايات المتحدة (USMLE).

تتضمن هذه المجموعة من البيانات، المُجمّعة من امتحانات طبية مهنية، اللغة الإنجليزية والصينية المبسطة والصينية التقليدية، وتحتوي على 12723 و34251 و14123 سؤالًا على التوالي. وتهدف إلى تقييم قدرة النموذج على فهم المعرفة الطبية وتطبيقها. إضافةً إلى بيانات الأسئلة، جُمعت ونُشرت مجموعة كبيرة من الكتب الطبية، والتي يستطيع نموذج فهم المقروء من خلالها استخلاص المعرفة اللازمة للإجابة على الأسئلة. قُسّمت مجموعة البيانات إلى مجموعات تدريب وتطوير واختبار، تُستخدم لتدريب النموذج والتحقق من صحته واختباره على التوالي.

مجموعة بيانات طبية صينية حقيقية JMED

* استخدم عبر الإنترنت:

https://hyper.ai/datasets/20490

مجموعة بيانات JMED هي مجموعة بيانات جديدة تعتمد على توزيعات البيانات الطبية الواقعية، وقد أنشأها فريق Citrus في عام 2025.

تستند هذه المجموعة من البيانات إلى حوارات مجهولة المصدر بين الأطباء والمرضى في مستشفى JD Health الإلكتروني، وقد خضعت لعملية تصفية للاحتفاظ بالاستشارات التي تتبع إجراءات تشخيصية موحدة. تحتوي النسخة الأولية على 1000 سجل سريري عالي الجودة، تغطي جميع الفئات العمرية (من 0 إلى 90 عامًا) وتخصصات متعددة. يتضمن كل سؤال 21 خيارًا للإجابة، أحدها "لا شيء مما سبق". يزيد هذا التصميم بشكل ملحوظ من تعقيد وصعوبة تحديد الإجابة الصحيحة، مما يوفر إطارًا تقييميًا أكثر دقة.

وبالمقارنة مع مجموعات بيانات ضمان الجودة الطبية الحالية، يتمتع JMED بثلاث مزايا رئيسية: أولاً، يعكس بشكل أكثر دقة غموض أوصاف أعراض المرضى والطبيعة الديناميكية للتشخيص السريري في السيناريوهات الحقيقية. ثانياً، تتطلب خيارات الاستجابة الموسعة مهارات تفكير متقدمة لتحديد الإجابة الصحيحة بين العديد من المشتتات. بالإضافة إلى ذلك، من خلال الاستفادة من كمية كبيرة من بيانات الاستشارة من المستشفيات الرئيسية التابعة لشركة JD، يمكننا بشكل مستمر إنشاء بيانات تتوافق مع خصائص توزيع المرضى الفعلية.