HyperAI

قامت جامعة أكسفورد وجهات أخرى بالبحث بعمق في البيانات الصحية لـ 7.46 مليون بالغ لتطوير خوارزميات الفحص المبكر، مما أدى إلى التنبؤ المبكر بـ 15 نوعًا من السرطان بناءً على مؤشرات الدم

特色图像

في المملكة المتحدة، واجهت معدلات البقاء على قيد الحياة لمرضى السرطان تحديات شديدة منذ فترة طويلة، حيث كانت النتائج السريرية من بين الأدنى في البلدان المتقدمة. وراء هذا الوضع تكمن حقيقة موضوعية وهي أن عددا كبيرا من مرضى السرطان يكونون بالفعل في المراحل المتوسطة أو المتأخرة عند تشخيص المرض، وقد فاتتهم أفضل فرصة للعلاج. في عام 2011، أصدرت هيئة الخدمات الصحية الوطنية في المملكة المتحدة (NHS) استراتيجيتها الخاصة بالسرطان، والتي نصت بوضوح على هدف تشخيص سرطان 75% في مرحلة قابلة للشفاء (المرحلة 1 أو 2)، بهدف تحسين الوضع الحالي من خلال تحسين عملية التشخيص. وتتعامل هذه الاستراتيجية مع الرعاية الأولية باعتبارها نقطة انطلاق، وتعمل على تحسين فعالية التشخيص المبكر من خلال الخوارزميات التنبؤية، وتشير إلى الاتجاه نحو ابتكار نماذج تشخيص وعلاج السرطان.

وفي هذا السياق، ظهرت خوارزميات التنبؤ بالسرطان التي تم تطويرها على أساس قواعد بيانات الرعاية الصحية الإلكترونية الأولية واسعة النطاق، مثل نموذج QCancer score.يتم تقييم الاحتمال المطلق لإصابة شخص ما بالسرطان دون تشخيص من خلال دمج عوامل متعددة مثل العمر والجنس وحالة الفقر والتدخين والشرب والتاريخ العائلي والأعراض.توصي المبادئ التوجيهية السريرية الوطنية بأن يفكر الأطباء في إجراء المزيد من الاختبارات أو الإحالة عندما تتجاوز القيمة التنبؤية الإيجابية للسرطان حدًا معينًا (مثل 3%). يتم دمج هذه الخوارزميات في أنظمة الكمبيوتر السريرية للرعاية الأولية لتقييم مخاطر الإصابة بالسرطان في الوقت الفعلي عندما يزور المرضى الطبيب، مما يوفر دعم البيانات لاتخاذ القرارات السريرية.

اعتبارًا من عام 2020، تم تشخيص ما يزيد قليلاً عن نصف حالات السرطان في إنجلترا في المرحلة الأولى أو الثانية، وهو ما يزال يمثل فجوة كبيرة عن الهدف المتمثل في 75% بحلول عام 2028. في السنوات الأخيرة، قدمت التطورات في تكنولوجيا فحص الدم اتجاهًا جديدًا لكسر هذا الاختناق.وقد أظهرت العديد من الدراسات أن التغيرات غير الطبيعية في مؤشرات الدم مثل الهيموجلوبين وعدد خلايا الدم البيضاء والصفائح الدموية قد تظهر قبل عدة سنوات من ظهور الأعراض السريرية.ويشير هذا إلى إمكاناته كمؤشر تحذيري مبكر للسرطان، مما دفع الباحثين إلى استكشاف دمج بيانات فحص الدم في النماذج التنبؤية لتحسين قدرة الخوارزمية على تحديد السرطانات التي لا تظهر عليها أعراض أو أعراض غير نمطية.

وبناءً على ذلك، تعاون فريق البحث من جامعة كوين ماري في لندن وجامعة أكسفورد لتطوير خوارزميتين جديدتين للتنبؤ بالسرطان استنادًا إلى السجلات الصحية الإلكترونية المجهولة لـ 7.46 مليون بالغ في إنجلترا:تدمج الخوارزمية الأساسية العوامل السريرية التقليدية ومتغيرات الأعراض، وتدمج الخوارزمية المتقدمة أيضًا مؤشرات الدم مثل تعداد الدم الكامل واختبارات وظائف الكبد.

استخدمت الدراسة نموذج الانحدار اللوجستي المتعدد الحدود لنمذجة مجموعات الذكور والإناث بشكل منفصل، ليس فقط للتنبؤ بالاحتمالية الكلية للإصابة بالسرطان،كما يسمح لأول مرة بإجراء تقييمات المخاطر الفردية لـ 15 نوعًا من السرطان، بما في ذلك سرطان الكبد وسرطان الفم.في 5 ملايين عملية تحقق مستقلة، أظهرت الخوارزمية الجديدة تمييزًا ومعايرة وحساسية متفوقة للنماذج الموجودة، مما يوفر أساسًا علميًا لتحسين عمليات اتخاذ القرار السريري وتعزيز التشخيص المبكر للسرطان. بالإضافة إلى ذلك، يقترح الفريق أن هذه الطريقة هي أول خوارزمية تستخدم في الرعاية الأولية لتقدير احتمال الإصابة بسرطان الكبد الذي لم يتم تشخيصه حاليًا.

وقد تم نشر نتائج البحث ذات الصلة في المجلة العالمية الشهيرة Nature Communications تحت عنوان "تطوير والتحقق الخارجي لخوارزميات التنبؤ لتحسين التشخيص المبكر للسرطان".

عنوان الورقة: 

https://go.hyper.ai/L7gNm

يجمع المشروع المفتوح المصدر "awesome-ai4s" أكثر من مائة تفسير ورقي لـ AI4S ويوفر مجموعات وأدوات ضخمة من البيانات:

https://github.com/hyperai/awesome-ai4s

دراسة قاعدة بيانات مزدوجة ودراسة متعددة المجموعات: حجم العينة يتجاوز المليون، مما يؤدي إلى بناء دعم البيانات في جميع الجوانب

تم الحصول على بيانات هذه الدراسة من قاعدتي بيانات السجلات الطبية الإلكترونية: QResearch (الإصدار 48) وClinical Practice Research Datalink (CPRD Gold).ويستند الأول إلى نظام EMIS ويغطي إنجلترا، في حين يستند الثاني إلى نظام Vision ويتضمن بيانات العيادات في أيرلندا الشمالية واسكتلندا وويلز، مما يشكل مجموعة تحقق خارجية مستقلة جغرافيًا لضمان تنوع البيانات وتمثيلها.

من حيث تعداد السكان في الدراسة، كما هو موضح في الشكل أدناه، تم تقسيم بيانات عيادة QResearch في إنجلترا بشكل عشوائي إلى مجموعة تطوير مكونة من 7,464,507 شخصًا، بما في ذلك 129,715 حالة جديدة من السرطان، ومجموعة التحقق من الصحة المكونة من 2,637,184 شخصًا، بما في ذلك 44,984 حالة جديدة من السرطان، ومجموعة التحقق من الصحة المكونة من 2,736,726 شخصًا، بما في ذلك 32,328 حالة جديدة من السرطان.

وتجاوز حجم العينة في المجموعات الثلاث المليون شخص، وشملت الأشخاص الذين تتراوح أعمارهم بين 18 و84 عاما.وهي تشمل الأورام الخبيثة الدموية الشائعة لدى الشباب، وسرطان الثدي، وأنواع السرطان الشائعة لدى الأشخاص في منتصف العمر وكبار السن. وتمتد الفترة الزمنية من 1 يناير 2015 إلى 31 مارس 2023، مع فترة متابعة مدتها سنتان. ويركز على المرضى الذين لم يتم تشخيص إصابتهم بالسرطان في وقت التسجيل، ويضمن دقة بيانات السرطان الجديدة من خلال استبعاد أولئك الذين ظهرت عليهم "أعراض العلم الأحمر" في غضون 12 شهرًا قبل التسجيل. وتغطي البيانات أبعادًا مثل العمر والجنس وحالة الفقر والتدخين والشرب والتاريخ العائلي والأعراض واختبارات الدم (تعداد الدم الكامل واختبارات وظائف الكبد). باستثناء مجموعة إنجلترا التي كانت لديها اكتمال أعلى قليلاً في البيانات المبلغ عنها ذاتيًا عن العرق والتدخين والشرب ومؤشر كتلة الجسم، كانت الخصائص الأساسية لكل مجموعة متسقة بشكل عام، مما يوفر أساس بيانات متوازن لتطوير النموذج.

توزيع بيانات مجموعة تطوير النموذج ومجموعة التحقق

وتعتمد الدراسة على أربعة مصادر رئيسية للبيانات: الأطباء العامون، والمستشفيات، ومعدلات الوفيات، وسجلات السرطان. تم التعرف على 13 نوعًا من السرطان المدرج بالفعل في QCancer (سرطان الرئة، وسرطان القولون والمستقيم، وما إلى ذلك) وسرطان الكبد المضاف حديثًا، وسرطان الفم والبلعوم، وما إلى ذلك، بإجمالي 15 نوعًا.استندت مجموعة CPRD فقط على التشخيصات التي سجلها الأطباء العامون بسبب قيود البيانات، مما أدى إلى نظام تحقق متعدد المستويات. تتميز هذه البيانات بحجم العينة الكبير، والمنطقة الجغرافية الواسعة، والفترة الزمنية الطويلة، والعوامل التنبؤية المتعددة، والأهمية السريرية القوية. من خلال تطوير مجموعة لبناء نموذج تنبؤي، واستخدام مجموعات التحقق من الصحة من مناطق وأنظمة مختلفة (وخاصة مجموعة CPRD الخارجية) لتقييم عالمية وموثوقية النموذج، يمكننا ضمان فعالية واستقرار الخوارزمية في السيناريوهات السريرية الحقيقية وتوفير دعم البيانات للتشخيص المبكر للسرطان.

تطوير نموذج التنبؤ بالسرطان: نمذجة الانحدار اللوجستي المتعدد الحدود والتحقق متعدد الأبعاد

في تطوير النموذج، قامت الدراسة بفحص متغيرات التنبؤ المرشحة بناءً على الخوارزميات والأدبيات الموجودة، والتي تغطي الخصائص الديموغرافية، وعادات التدخين والشرب، والتاريخ العائلي للسرطان، والأمراض المصاحبة، بالإضافة إلى الأعراض ونتائج فحص الدم. تم تقسيم الأعراض إلى "أعراض تحذيرية (ارتباط قوي بالسرطان، أساس للإحالة العاجلة وفقًا للمبادئ التوجيهية السريرية)" وأعراض غير محددة، وشملت اختبارات الدم سجلات المجموعة من العامين السابقين لالتقاط الإشارات المحتملة.


ولضمان علمية ودقة النموذج،وفي النمذجة، استخدم الباحثون الانحدار اللوجستي المتعدد الحدود لتقدير معاملات المتغيرات التنبؤية لكل نوع من أنواع السرطان وقاموا بملاءمة النماذج للرجال والنساء.تم ملء القيم المفقودة لحالة الشرب والتدخين ومؤشرات الدم من خلال الاستنباط المتعدد للمعادلات المتسلسلة (5 استنباطات للرجال والنساء لكل منهما + دمج قاعدة روبن)، وتم ترميز المتغيرات الثنائية في فئات ثنائية وفقًا لسجلات تشخيص الطبيب العام. عند ملاءمة النموذج، تم الاحتفاظ بالمتغيرات ذات مستوى الدلالة ≤ 0.01، وتم ضبط المعاملات ذات نسبة الخطر 0.80-1.20 وعدم وجود دلالة على الصفر. تم إنشاء نموذج موجز من خلال الجمع بين قيمة P وحجم التأثير لتجنب الاختيار التلقائي للمتغير بناءً على الأهمية الإحصائية فقط وضمان الأهمية السريرية.


تم استخدام كثيرات الحدود الكسرية لنمذجة العلاقات غير الخطية بين المتغيرات المستمرة واختبار التفاعل بين المتغيرات التنبؤية والعمر. وعند تقييم تفاؤل النموذج استخدم الباحثون معامل الانكماش الاستدلالي لتقييم تفاؤل النموذج، وكانت قيم الانكماش لكلا النموذجين > 0.99، مما يؤكد عدم وجود أي فرط في التجهيز. وأخيرا، تم استخلاص النموذج أ (العوامل السريرية + الأعراض) والنموذج ب (النموذج أ + نتائج فحوصات الدم). ويهدف الأخير إلى تحسين دقة التنبؤ من خلال إضافة إشارات جديدة مرتبطة بالسرطان.


تم إجراء تقييم النموذج في مجموعتين مستقلتين للتحقق. بالإضافة إلى حساب AUROC لتقييم القدرة على التمييز،قام الباحثون بتقديم مؤشر تمييز متعدد الفئات (PDI، 12 فئة للرجال / 14 فئة للنساء، بما في ذلك فئة خالية من السرطان) لقياس أداء التصنيف العام (كلما اقترب مؤشر PDI من 1، كلما كان التمييز أكثر دقة).تم اختبار الاتساق بين الاحتمال المتوقع والقيمة الفعلية من خلال منحنى المعايرة والميل والتقاطع. يركز التحليل الخاص للسرطان المبكر على الحالات من عام 2015 إلى عام 2020، باستخدام المرحلة 1/المرحلة 2 كتعريف مبكر، ويقوم بتقسيم وتقييم مجموعات فرعية مثل المناطق الجغرافية والأعراق والفئات العمرية للتحقق من عالمية النموذج في مختلف السكان.

تطبيق نموذج التنبؤ بالسرطان: تم تضمين سرطان الكبد وسرطان الفم لأول مرة، وتم تحليل العلاقة بين مؤشرات الدم وخطر الإصابة بالسرطان

في مرحلة تطبيق النموذج والتحقق التجريبي،أجرت هذه الدراسة التحقق متعدد الأبعاد من ارتباط المتغيرات، والقدرة على التمييز، وتأثير المعايرة والقيمة السريرية للنموذج التنبئي الجديد.وبالمقارنة مع خوارزمية QCancer الحالية، يضيف النموذج الجديد أربع حالات طبية جديدة: تليف الكبد، والتهاب الكبد B، والتهاب الكبد C (المرتبط بسرطان الكبد)، والإيدز (المرتبط بسرطان الدم وسرطان الكلى)، ويكمل الارتباط بالتاريخ العائلي لسرطان الرئة / سرطان الدم، وسبعة أعراض متبادلة للسرطان مثل الحكة والكدمات والكتل البطنية.

وكانت هناك فروق بين الجنسين في التفاعل بين العمر والأعراض:إن خطر الإصابة بمعظم أنواع السرطان يكون أقوى في سن أصغر لدى الرجال، ولكن العكس صحيح بالنسبة للنساء.وأظهر تحليل العمر ومؤشر كتلة الجسم أن خطر الإصابة بجميع أنواع السرطان، باستثناء سرطان الخصية وسرطان عنق الرحم، يزداد مع التقدم في السن؛ ارتبط انخفاض مؤشر كتلة الجسم بشكل إيجابي بأنواع متعددة من السرطان، كما زاد خطر الإصابة بسرطان الرحم وسرطان المبيض لدى النساء مع ارتفاع مؤشر كتلة الجسم.


كما هو موضح في الشكل 2-4 أدناه، يوضح تحليل مؤشرات الدم المضمنة في النموذج B ما يلي:

* الهيموجلوبين: يرتبط انخفاض هذا المؤشر بسرطان الرئة وسرطان القولون والمستقيم لدى الرجال، وسرطان القولون والمستقيم وسرطان الكبد لدى النساء؛

* الخلايا الليمفاوية: ترتبط سلبًا بمعظم أنواع السرطان وترتبط بشكل إيجابي قوي بسرطانات الدم؛

* العدلات: عند النساء، يرتبط ارتفاع هذا المؤشر على نطاق واسع بالسرطان (سرطان الرئة هو الأكثر أهمية)، بينما عند الرجال، فهو "مرتبط بشكل ثنائي الاتجاه (القيم العالية مرتبطة بـ 6 أنواع من السرطان، والقيم المنخفضة مرتبطة بسرطان الكبد وسرطان البروستاتا)"؛

* الصفائح الدموية: يرتبط ارتفاع عدد الصفائح الدموية بشكل إيجابي بالعديد من أنواع السرطان لدى كل من الرجال والنساء (سرطان القولون والمستقيم لدى الرجال وسرطان المبيض لدى النساء هو الأقوى)، ويرتبط بشكل تآزري بارتفاع عدد الخلايا المتعادلة وانخفاض عدد الخلايا الليمفاوية؛

* وظائف الكبد: يشير انخفاض الألبومين وارتفاع الفوسفاتيز القلوية عمومًا إلى خطر الإصابة بالسرطان، في حين يرتبط ارتفاع البيليروبين ارتباطًا وثيقًا بسرطان الكبد وسرطان الدم.

الحدود الكسرية للعمر ومؤشر كتلة الجسم والهيموجلوبين
الحدود الكسرية للكريات البيضاء والصفائح الدموية
الحدود الكسرية لاختبارات وظائف الكبد

وفي تقييم القدرة على التمييز، كما هو موضح في الشكل أدناه، فإن إحصائية c (AUROC) للنموذج B (بما في ذلك اختبار الدم) أفضل من تلك الخاصة بالنموذج A بشكل عام. إن كفاءة التمييز الكلية لدى الرجال (0.876) أعلى من كفاءة التمييز لدى النساء (0.844). معظم قيم c للـ 15 سرطانًا هي > 0.8، مع كون سرطان الفم فقط (0.747) وسرطان عنق الرحم (0.694) عند النساء أقل قليلاً. وأظهر مؤشر التمييز متعدد الفئات (PDI) أن النموذج B كان متفوقًا على النموذج A في قدرته على التمييز بين الرجال والنساء (0.323 للرجال و0.266 للنساء)، وكان له أداء تصنيفي متميز لسرطان الخصية (PDI 0.641 للرجال) وسرطان الرحم (PDI 0.439 للنساء). وأظهر تحليل المجموعة الفرعية أنوكان أداء النموذج مستقرا عبر مختلف الأعراق والأعمار والمناطق الجغرافية، مع تقلبات طفيفة في حالات السرطان النادرة بسبب العدد الصغير من الأحداث.

إحصائيات c للنموذج A والنموذج B في مجموعة التحقق من صحة QResearch


من حيث قدرة المعايرة، كما هو موضح في الشكل أدناه، فإن منحدر المعايرة للنموذج A/B في مجموعة إنجلترا يقترب من 1 (1.00 للنساء و0.99 للرجال)، ويقترب التقاطع من الصفر؛ ومع ذلك، هناك مبالغة معينة في تقدير احتمال الإصابة بالسرطان لدى الرجال والنساء في مجموعة CPRD الخارجية. يوضح منحنى القرار أن الفائدة الصافية للنموذج B أعلى من تلك الخاصة بالنموذج A وQCancer، وخاصة عند عتبة الإحالة 3%، وحساسية النموذج A/B لسرطان الذكور (82.6%) أعلى من حساسية QCancer (78.1%)، وتزداد الحساسية لسرطان الإناث من 66.0% إلى أكثر من 77%، والقدرة على تحديد السرطان المبكر في المرحلة 1/2 قابلة للمقارنة مع جميع المراحل (75% للإناث و81% للذكور). وأظهر تحليل إعادة التصنيف أنوبالمقارنة مع QCancer، يصنف النموذج A عددًا أكبر من كبار السن على أنهم معرضون لخطر كبير والشباب على أنهم معرضون لخطر منخفض، وبالتالي تحسين دقة تخصيص الموارد السريرية.

تحليل منحنى القرار

خوارزميات التنبؤ بالسرطان العالمي والتشخيص المبكر: التقدم متعدد التخصصات في البحث الجامعي والابتكار المؤسسي

وفي مجال خوارزميات التنبؤ بالسرطان والتشخيص المبكر، تعمل فرق البحث العلمي من الجامعات في جميع أنحاء العالم وشركات التكنولوجيا على تعزيز التحول السريع للبحوث النظرية إلى تطبيقات سريرية من خلال الابتكار متعدد التخصصات.


على سبيل المثال، نموذج MuMo الذي طوره فريق دونج بين وشين لين من جامعة بكين،دمج التصوير وعلم الأمراض والبيانات السريرية لمرضى سرطان المعدة الإيجابي لـ HER2 لتوفير تنبؤات دقيقة للعلاج الفردي؛قام مركز معلومات شبكات الكمبيوتر التابع للأكاديمية الصينية للعلوم ببناء نموذج SuRe-Transformer على أساس نظام الكمبيوتر العملاق "Dongfang" باستخدام بنية Transformer.تحسين دقة التنبؤ بـ HRD لصور أمراض سرطان الثدي بواسطة 21%؛استخدمت مجموعة البحث التابعة للي شاو في جامعة تسينغهوا إطار التعلم ضعيف الإشراف HistoCell.تحقيق الاستدلال غير الخاضع للإشراف لشبكات الارتباط المكانية للخلايا في الصور المرضية.توفير أدوات جديدة لأبحاث البيئة المحيطة بالورم.


نموذج CHIEF الذي طورته كلية الطب بجامعة هارفارد وجامعة ستانفورد،تشخيص 19 نوعًا من السرطان بدقة 94%،ويمكنه أيضًا التنبؤ بمعدلات بقاء المرضى على قيد الحياة استنادًا إلى الصور المرضية؛ يتنبأ نموذج التعلم العميق ResNetRS50 الذي طورته جامعة كامبريدج بسرطان الدم من خلال تحليل بيانات الدم، بدقة أعلى وسرعة ومعدل خطأ أقل من النماذج المتقدمة.


يركز الابتكار في قطاع الأعمال بشكل أكبر على دمج تنفيذ التكنولوجيا والممارسة السريرية. تدمج منصة الذكاء الاصطناعي للصحة من مايكروسوفت الجينومات والسجلات الصحية الإلكترونية لبناء خريطة مخاطر الإصابة بالسرطان الفردية، مع دقة تنبؤ تبلغ 89% للأشخاص المعرضين لخطر الإصابة بسرطان الثدي؛ يتمتع نظام AlphaScan من Google DeepMind بدقة 96% في الكشف المبكر عن سرطان الرئة؛ تم تطبيق حل الذكاء الاصطناعي لتصوير الرئة لشركة التكنولوجيا الطبية InferRead، وهو نظام اكتشاف عقيدات الرئة القائم على التعلم العميق، على التصوير المقطعي المحوسب السريري، مما أدى إلى تحسين كفاءة التشخيص بشكل كبير.


وبشكل عام، يتطور مجال خوارزميات التنبؤ بالسرطان والتشخيص المبكر من فحص سرطان واحد إلى الفحص المبكر لجميع أنواع السرطان: يقوم اختبار جاليري من شركة جرايل في الولايات المتحدة بفحص 50 نوعًا من السرطان وتحديد الآفة الأولية من خلال تحليل مثيلة الدم، كما تحقق تقنية PanSeer® من شركة Xunyuan Biotechnology الصينية الفحص المبكر لخمسة أنواع شائعة من السرطان بشكل فعال. ومن المتوقع أن يتم تعميم خوارزميات التنبؤ بالسرطان في الرعاية الطبية الأولية، مع التكامل العميق للذكاء الاصطناعي والبيانات الضخمة، مما يعزز تحويل نماذج التشخيص والعلاج من "الطب التجريبي" إلى "طب البيانات الدقيقة"، ويضع الأساس لتحقيق "الكشف المبكر والتدخل المبكر".


روابط مرجعية:
1.https://bda.pku.edu.cn/info/1003/2824.htm
2.https://www.cas.cn/syky/202505/t20250522_5069507.shtml
3.https://mp.weixin.qq.com/s/s1JyOTPChdoMipmTzBBqvw
4.https://mp.weixin.qq.com/s/4fhMJ25xVAThAFTdmZyt9w