HyperAI

استراتيجية اختيار الميزات: إيجاد طرق جديدة للكشف عن المؤشرات الحيوية لسرطان الثدي

特色图像

المحتويات في لمحة:microRNA (microRNA) هي فئة من النسخ غير المشفرة من الحمض النووي الريبي أحادي السلسلة القصير. تظهر هذه الجزيئات نموًا غير منضبط في مجموعة متنوعة من الأورام الخبيثة، وبالتالي تم تحديدها من قبل العديد من الدراسات في السنوات الأخيرة كعلامات حيوية موثوقة لتشخيص السرطان. من بين التحليلات المرضية المختلفة، غالبًا ما يُنظر إلى تحليل التعبير التفاضلي باعتباره طريقة فعالة للكشف عن المؤشرات الحيوية الرئيسية. اقترح باحثون من جامعة نابولي فيديريكو الثاني في إيطاليا أن استراتيجية اختيار الميزات القائمة على التعلم الآلي يمكن أن تكون أكثر فعالية للكشف، وأوصوا باستخدام microRNAs العشرين التي اكتشفوها كعلامات حيوية تشخيصية لسرطان الثدي.

الكلمات المفتاحية:اختيار الميزة microRNA سرطان الثدي

نُشرت هذه المقالة لأول مرة على منصة HyperAI WeChat العامة~

وفقًا لإصدار عام 2022 من "إرشادات علاج سرطان الثدي" الصادرة عن اللجنة الوطنية للصحة،يعد سرطان الثدي من الأورام الخبيثة الأكثر شيوعاً عند النساء، ويأتي معدل الإصابة به في المرتبة الأولى بين الأورام الخبيثة عند النساء.وبحسب إحصائيات منظمة الصحة العالمية، في عام 2020، تم تشخيص إصابة ما مجموعه 2.3 مليون امرأة حول العالم بسرطان الثدي. مع التحسين المستمر لطرق العلاج،يمكن أن يصل معدل البقاء على قيد الحياة لمدة خمس سنوات لمرضى سرطان الثدي المبكر إلى 90% أو حتى أعلى. ولذلك، فإن التشخيص الدقيق لسرطان الثدي في مراحله المبكرة له أهمية خاصة.

بالإضافة إلى لعب العديد من الأدوار الرئيسية في علم الأحياء، فإن التغيرات في التعبير عن microRNA ترتبط أيضًا بمجموعة متنوعة من أنواع السرطان، لذلك يمكن استخدامها كعلامة تشخيصية مفترضة وموثوقة. استخدم باحثون من جامعة نابولي فيديريكو الثاني في إيطاليا التعلم الآلي لـمن خلال استخدام استراتيجية اختيار الميزة وتحليل أداء الاستقرار والتصنيف لثلاث طرق،تم الحصول على مجموعة من المؤشرات الحيوية التشخيصية الخاصة بسرطان الثدي، وتم اكتشاف الجينات الرئيسية المفترضة في تطور وتقدم مرض سرطان الثدي.

حاليًا، تم نشر نتيجة هذا البحث في وقائع المؤتمر الثامن عشر لأساليب الذكاء الحاسوبي في المعلوماتية الحيوية والإحصاء الحيوي (CIBB 2023) تحت عنوان "استراتيجية اختيار الميزة القوية تكتشف مجموعة من microRNAs كعلامات حيوية تشخيصية مفترضة في سرطان الثدي".

وقد تم نشر نتائج البحث في مجلة CIBB 2023

عنوان الورقة:

https://www.researchgate.net/publication/372083934

نظرة عامة على التجربة

في هذه الدراسة، وجد الباحثون أنه بمساعدة ثلاث طرق لاختيار الميزات (معدل الربح، والغابة العشوائية، وإزالة الميزات المتكررة باستخدام آلة دعم المتجهات)، يمكن استخراج التركيبات الجزيئية التشخيصية بكفاءة أكبر. وقد كشف الباحثون عن مجموعة مكونة من 20 microRNA، من بينها hsa-mir-337 وhsa-mir-378c وhsa-mir-483 والتي لم تحظ باهتمام واسع النطاق في المجتمع الطبي بين المؤشرات الحيوية التشخيصية الحالية لسرطان الثدي. تستطيع هذه الطريقة التمييز بين العينات السليمة والورمية. وبالمقارنة مع طريقة التعبير التفاضلي المستخدمة بشكل شائع، فإن أداء التصنيف الخاص بها أفضل، كما أنها أسهل في تحديد الميزات التي يتم التقليل من شأنها بسهولة أو حتى تجاهلها.

الشكل 1: نظرة عامة على خط الأنابيب

يتكون سير العمل من 4 خطوات رئيسية:

(أنا)  حسابات Ensemble-FS على مجموعة فرعية من TCGA للتدريب

(ثانياً)  تحليل التعبير التفاضلي لمجموعات بيانات TCGA/GEO

(ثالثا)  مقارنة أداء التصنيف لتحليل التعبير التفاضلي ونتائج اختيار الميزة، وتقييم استقرار طرق اختيار الميزة

(رابعاً)  تم استخدام المحاكاة الحاسوبية للتحقق من أفضل 20 microRNA للتوقيع المحدد ولاكتشاف أهداف الجينات المحورية.

تفاصيل التجربة 

مجموعة البيانات 

تتضمن مصادر البيانات التجريبية قناتين:مشروع TCGA-BRCA على الموقع الرسمي لـ GDC في الولايات المتحدة ومستودع بيانات Gene Expression Omnibus (GEO) (GSE97811).

قام الفريق التجريبي بجمع ما مجموعه 1881 من بيانات microRNA-Seq من مشروع GDC TCGA-BRCA وقسمها إلى مجموعات تدريب واختبار بنسبة 8:2. تم ربط البيانات بـ 300 عينة من الأورام الأولية الصلبة (T) و 101 عينة من الأورام المجاورة الطبيعية (NAT)، من أنسجة الثدي القنوية والفصيصية. قبل تطبيق اختيار الميزة،لقد خضعت هذه البيانات لتطبيع استقرار التباين.

وفي الوقت نفسه، قام الباحثون بتنزيل مجموعة بيانات مصفوفة دقيقة تحتوي على 2565 microRNA من قاعدة بيانات GEO (GSE97811).يتم استخدامه كمجموعة التحقق لهذه التجربة.تتضمن مجموعة البيانات 16 عينة طبيعية و 45 عينة ورم، ثم يتم إجراء عملية احتساب البيانات.

نظرًا لأن بيانات GEO (مجموعة التحقق في هذه التجربة) تتضمن التعبير عن microRNAs الناضجة، وتحتوي بيانات TCGA (مجموعة التدريب ومجموعة الاختبار في هذه التجربة) على الشكل السابق، من أجل توحيد البيانات، اختار الباحثون فقط microRNAs الناضجة البديلة بقيم عدد متوسطة أعلى من خيوطها المقابلة في عينات بيانات GEO؛ في نفس الوقت، تم تحويل أسماء microRNAs إلى أسماء الأشكال السابقة المقابلة.

بعد هذه العملية،تم تقليص أبعاد بيانات GEO (مجموعة التحقق) إلى 1361 microRNA، وتم أيضًا جمع بيانات TCGA RNA-Seq المقابلة، بما في ذلك إجمالي 20404 جينًا.

1. طريقة اختيار الميزة وتطبيق برنامج المجموعة 

قام الباحثون باختيار ثلاث طرق لاختيار الميزات للمقارنة مع تحليل التعبير التفاضلي.إنهم نسبة الكسب، والغابة العشوائية، وتقنية إزالة الميزات المتكررة لآلة دعم المتجهات (SVM-RFE).تم تطبيق ثلاث طرق على 500 مجموعة فرعية من بيانات TCGA الخاصة بتعبير microRNA-Seq لتحديد لوحة ميزات قوية يمكنها التمييز بين العينات الطبيعية والعينات الورمية. في النتائج الملاحظة، تم تقسيم البيانات إلى مجموعة تدريب ومجموعة اختبار بنسبة 8:2، ثم تم إعادة أخذ العينات من البيانات وإعادة تشغيلها لجعلها تتوافق مع إجراء مجموعة اضطراب البيانات. يقوم كل حساب بإرجاع 500 متجه microRNA مرتبة حسب الترتيب التنازلي لـ "درجة الأهمية".

|ملاحظات:تمثل درجة الأهمية تأثير كل ميزة في التصنيف الذي تحسبه الخوارزمية.

كلما زادت درجة الأهمية، كلما انخفضت المرتبة المخصصة للميزة.ثم استخدم الباحثون إجراء التجميع لاستخلاص توقيع إجماع لكل طريقة اختيار ميزة، وفي النهاية احتفظوا بأفضل 200 ميزة لكل مجموعة من microRNAs.

2. اختبار الاستقرار 

تم استخدام مؤشر كونشيفا (KI) ونسبة الجينات/الميزات المتداخلة (POG) لتقييم اتساق طرق اختيار الميزات، وتم استخدام إحصائية ستوت (قياس زوجي لمؤشر كونشيفا) لتحديد الاستقرار بين جميع الطرق.يتم حساب هذه الإحصائيات مع زيادة طول التوقيع.يبدأ عدد الميزات من 2 وينتهي عند 200، ويزداد كل إعادة حساب بمقدار 2 وحدة.

صيغة إحصائيات ستوت

3. تحليل التعبير التفاضلي وتوقيع DE 

تم إجراء تحليل التعبير التفاضلي على مجموعات بيانات TCGA (بما في ذلك microRNA-Seq وRNA-Seq)، بدءًا من التعدادات الخام، باستخدام الاختبار الدقيق، ثم الاحتفاظ بميزات DE مع FDR <= 0.01 وعتبة Log2FC من |0.5|.للحصول على توقيع DE-microRNA، تم تحويل قيم Log2FC إلى قيم مطلقة، وتم فرز microRNAs (تم الاحتفاظ بأول 200 ميزة) بالترتيب التنازلي لـ abs (Log2FC).

تم التعبير عن مجموعة التحقق من صحة GEO بشكل تفاضلي باستخدام Limma، وكانت المعلمات والإجراءات للحصول على توقيعات DE في مجموعة البيانات هذه متوافقة مع تلك الموجودة في مجموعة بيانات TCGA.

4. تحليل أداء التصنيف 

لتحديد قدرة كل توقيع على التمييز بين الأشخاص الأصحاء والمرضى بالسرطان،أجرى الباحثون تحليلًا تنبؤيًا على أربعة توقيعات (بما في ذلك لوحات اختيار الميزات ولوحات التعبير التفاضلي) على كل من مجموعة الاختبار (TCGA) ومجموعة التحقق (GEO).

وأخيرًا، تم حساب متوسط الدقة (ACC) وإحصائية K (KK) ومعامل ارتباط ماثيوز (MCC) لكل طية وأطوال متعددة لكل توقيع.

5. الكشف عن هدف توقيع microRNA لـ SVM-RFE 

لتحديد الأهداف الجينية المحتملة لـ microRNA،وقد أجرى الباحثون العمليات التالية:

1.  تم تصنيف أفضل 20 microRNAs SVM-RFE وفقًا لما إذا كانت منظمة بشكل تصاعدي أو تنازلي في عينات الورم.

2.  تم إجراء تحليل التعبير التفاضلي على بيانات RNA-Seq للكشف عن الجينات المعبر عنها بشكل تفاضلي (FDR <= 0.05).

3.  تم تطبيق تحليل ارتباط سبيرمان لمقارنة تعبير microRNA مع الجينات المعبر عنها بشكل تفاضلي، وتم الاحتفاظ فقط بالجينات العلوية التي كانت مرتبطة سلبًا مع microRNAs السفلية والجينات السفلية التي كانت مرتبطة سلبًا مع microRNAs العلوية (rho <= -0.5).

4.  تم جمع جميع أهداف جين microRNA المعتمدة وتم الاحتفاظ فقط بتلك التي أظهرت أيضًا ارتباطًا بـ DE.

6. مركزية الشبكة وتحديد جينات المحور

مصفوفة الارتباط (سبيرمان) للجينات غير المنظمة المحددة،واستخدامها لبناء شبكة الجينات ذات البنية البيانية:تم الاحتفاظ بجينات المحور مع درجة مركزية المحور لكلاينبيرج > 75، أو rho > 0.8 أو rho < -0.6. تم إجراء تحليل إثراء الجينات (ORA) على الجينات المحورية لاستكشاف المسارات الأكثر إثراءً من قاعدة بيانات REACTOME. تم ضبط عتبة pValue المعدلة لـ FDR على 0.005.

النتائج التجريبية 

وأظهرت التجربة أنه بعد تطبيق طرق اختيار الميزات الثلاثة، تم إرجاع 500 توقيع microRNA بترتيب تنازلي لدرجة الأهمية، وتم الحصول على ثلاث لوحات إجماع بعد التجميع. ومن الجدير بالذكر أن أفضل ثلاثة جزيئات microRNA (hsa-mir-139، وhsa-mir-96، وhsa-mir-145) ظهرت في جميع الألواح، مما يدل على أهمية هذه الجزيئات في التمييز بين عينات الورم والعينات الصحية.

الاستنتاج 1: يتمتع SVM-RFE بأعلى مستوى من الاستقرار

من حساب KI وPOG على لوحة الإجماع،تعتبر طريقة SVM-RFE الأكثر استقرارًا، وتظهر بشكل أوضح عندما يصل طول التوقيع إلى 20 ميزة. وبالمثل، تظهر نتائج مؤشر ستوت أيضًا أن طريقة SVE-RFE تتمتع بأعلى قدر من الاستقرار.

الشكل 2: مقارنة مؤشر الاستقرار لثلاث طرق لاختيار الميزات

أزرق:غابة عشوائية

لون القرنفل:نسبة الربح

أصفر:SVM-RFE (إزالة الميزات المتكررة لآلة دعم المتجهات)

|الاستنتاج 2: أداء توقيع SVM-RFE أفضل من أداء توقيع التعبير التفاضلي في التصنيف

بعد تحليل أداء التصنيف لجميع الألواح الفردية، أظهر كل من مجموعة الاختبار (TCGA) ومجموعة التحقق (GEO) أن التوقيع الذي تم الحصول عليه بواسطة SVM-RFE كان لديه أعلى قدرة تنبؤية.

الشكل 3: أداء التصنيف لأفضل 20 microRNA ومخطط فين

أ:يُظهر الرسم البياني الشريطي الإحصائيات المتوسطة المحسوبة على مجموعة فرعية الاختبار ومجموعة بيانات GEO للتحقق الخارجي.

أي سي سي:دقة

ك ك:إحصائية K

مركز التحكم بالسيارات:معامل ارتباط ماثيوز

أخضر:DE (تحليل التعبير التفاضلي، طريقة التحكم في هذه التجربة)

لون القرنفل:GR (نسبة الكسب)

أزرق:RF (الغابة العشوائية)

اللون البرتقالي:RFE (SVM-RFE، إزالة الميزات المتكررة لآلة الدعم المتجه)

ب:الشكل 4: مخطط فين لأفضل 20 microRNA لكل توقيع، مع بعض microRNAs المثيرة للاهتمام من أفضل 20 من لوحة SVM-RFE المسمى - hsa-mir-337، وhsa-mir-378c، وhsa-mir-483. ظهرت هذه الجزيئات الثلاثة من microRNAs في جميع طرق اختيار الميزات الثلاثة، ولكن لم يتم تحديد موثوقيتها كدليل تشخيصي بشكل كامل بعد في الدراسات الحالية حول سرطان الثدي.

|الاستنتاج 3: يكشف تحليل الشبكة عن الجينات الرئيسية المحتملة في تطور المرض

أظهرت التجارب أن CDC25 وTPX2 وKIF18B يتم التعبير عنها بشكل كبير في الخلايا الجذعية لأنواع مختلفة من السرطان ومرضى سرطان الثدي الثلاثي السلبي، ويرتبط انخفاض تنظيم TGFBR2 بتطور السرطان.

microRNA: مرشح مثالي آخر للفحص المبكر لسرطان الثدي 

لا تزال طرق فحص سرطان الثدي التقليدية تعتمد على التصوير بالأشعة السينية وخزعة الأنسجة، والتي لا يمكنها أن تؤسس فهمًا أعمق وأكثر شمولاً لجينوم السرطان بأكمله. هذه الطريقة ليست فقط شديدة التوغل ومكلفة وعرضة للآثار الجانبية، ولكنها غالبًا ما تعطي نتائج إيجابية كاذبة أو سلبية كاذبة. من الصعب تحسين دقة الفحص المبكر لسرطان الثدي وتجربة المريض.ولا تزال هناك حاجة إلى تطوير استراتيجيات جديدة لمعالجة العبء الذي يشكله سرطان الثدي.

منذ اكتشافه لأول مرة في عام 1993، واصل micorRNA تعميق فهمنا للسرطان وأظهر إمكانات كبيرة كعلامة حيوية موثوقة لتشخيص سرطان الثدي.

microRNA هو عبارة عن RNA صغير غير مشفر يبلغ طوله حوالي 19-25 nt، والذي يمكنه تنظيم مجموعة متنوعة من الجينات المستهدفة.يشارك في تنظيم مجموعة متنوعة من العمليات البيولوجية والمرضية.ومن المتوقع أن يعوض هذا الفحص، بما في ذلك تكوين وتطور السرطان، عن القيود التي يفرضها التصوير بالأشعة السينية وخزعة الأنسجة الحالية باعتبارها الطرق التشخيصية السائدة لفحص سرطان الثدي في الممارسة السريرية.

ومع ذلك، لم يتم تطوير التطبيقات السريرية الناضجة لـ microRNA بشكل كامل بعد، ولم يتم إنشاء نظام لتقييم السلامة لاستخدام microRNA حتى الآن.من المحتمل أن يستغرق الأمر بعض الوقت قبل أن يصبح microRNA هو الأساس التشخيصي الرئيسي للسرطان.

المقالات المرجعية:

[1]https://www.who.int/zh/news-room/fact-sheets/detail/breast-cancer

[2]https://guide.medlive.cn/guideline/25596

[3]https://www.abcam.cn/kits/micrornas-as-biomarkers-in-cancer-1

[4]https://caivd-org.cn/webfile/file/20220508/20220508153691029102.pdf

[5]https://www.sohu.com/a/318088245_100120288

نُشرت هذه المقالة لأول مرة على منصة HyperAI WeChat العامة~