HyperAI

تستخدم DeepMind التعلم غير الخاضع للإشراف لتطوير AlphaMissense، وتتنبأ بـ 71 مليون طفرة جينية

特色图像

يحتوي الجينوم البشري على ما مجموعه 3.16 مليار زوج قاعدي، والتي تخضع باستمرار للتكرار والنسخ والترجمة، وهي معرضة لخطر الأخطاء والطفرات في أي وقت.

الطفرات غير المعينة هي شكل شائع من أشكال الطفرات الجينية، ولكن البشر لم يلاحظوا سوى جزء صغير منها حتى الآن، ولا يمكن تفسير سوى 0.1%.

إن التنبؤ الدقيق بتأثيرات الطفرات غير المتماثلة يلعب دورًا مهمًا في البحث والوقاية من الأمراض النادرة والأمراض الوراثية. هذه المرة، اتخذت DeepMind إجراءً مرة أخرى.

المؤلف | شيويه تساي

المحرر | ثلاثة خراف، برج حديدي

تم نشر هذه المقالة لأول مرة على منصة HyperAI WeChat العامة~

يحتوي الجينوم البشري على ما مجموعه 3.16 مليار زوج قاعدي. تخضع هذه الأزواج القاعدية للتكرار والنسخ والترجمة كل يوم، ويتم التعبير عنها في النهاية على شكل بروتينات تنظم الأنشطة الفسيولوجية اليومية للإنسان.

مع مثل هذا العبء الضخم من العمل، حتى جسم الإنسان الحساس سيجد صعوبة في تحقيق أخطاء مثالية.إذا لم تكن حذرا، فقد تكون أزواج القواعد غير متوافقة، مما يؤدي إلى حدوث طفرات جينية، وحتى السرطان مع مرور الوقت.

الطفرة غير الطبيعية هي شكل شائع من أشكال الطفرة الجينية.بسبب الطفرات القاعدية في الحمض النووي، تتغير الأحماض الأمينية المترجمة، مما يؤدي في النهاية إلى تدمير وظيفة البروتين بأكملها.

الشكل 1: مخطط تخطيطي للطفرة غير المتماثلة.بسبب طفرة نيوكليوتيدات الأدينين إلى نيوكليوتيدات الجوانين في الحمض النووي،الحمض الأميني الذي تم تحويله من الجلوتامين إلى السيرين

في الوقت الحالي، تم ملاحظة أكثر من 4 ملايين طفرة غير ذات معنى في البشر، ولكن الطفرات غير ذات المعنى في 2% فقط يمكن تصنيفها على أنها طفرات مسببة للأمراض أو طفرات حميدة.

إن التنبؤ الدقيق بتأثيرات الطفرات غير الطبيعية يمكن أن يعمق فهمنا للأمراض النادرة ويمنع الأمراض الوراثية المحتملة ويعالجها.على الرغم من أن التحليل المتعدد لتأثيرات المتغيرات (MAVEs) يمكنه تحليل الطفرات البروتينية بشكل منهجي والتنبؤ بتأثيراتها السريرية بدقة،لكن هذه الطريقة تتطلب قدرًا كبيرًا من القوى البشرية والموارد المادية.من الصعب إجراء تحليل شامل لجميع الطفرات المحتملة.

ولتحقيق هذه الغاية، قامت DeepMind بتحليل البنية العامة للبروتين من خلال AlphaFold.لقد قمنا بتطوير AlphaMissense من خلال الجمع بين التعلم الضعيف والتعلم غير الخاضع للإشراف.تم تحليل عواقب الطفرات غير المتماثلة بشكل منهجي. تم التحقق من صحة AlphaMissense باستخدام مجموعة البيانات ClinVar.وصلت دقة التنبؤ إلى 90%.

ثم،تتنبأ AlphaMissense بـ 71 مليون طفرة محتملة في البشر، ومن بينها 32% قد تكون طفرة مسببة للأمراض و 57% قد تكون طفرة حميدة.وستساهم هذه النتائج بشكل كبير في تعزيز تطوير التخصصات مثل علم الأحياء الجزيئي، وعلم الجينوم، والطب السريري.وقد نشرت هذه النتيجة في مجلة "ساينس".

الشكل 2: نتائج تنبؤات AlphaMissense لـ 71 مليون طفرة غير مفهومة (أعلى) والنتائج التي تم رصدها وتأكيدها حاليًا من قبل البشر (أسفل)

وقد تم نشر النتائج ذات الصلة في مجلة "ساينس"

رابط الورقة:

https://www.science.org/doi/10.1126/science.adg7492

الإجراءات التجريبية

ألفاميسينس:AlphaFold + الضبط الدقيق

عندما يتم إدخال تسلسل الأحماض الأمينية في AlphaMissense، فإنه يتنبأ بمدى مسببات الأمراض لأي تغيير في الأحماض الأمينية في التسلسل. إن تنفيذ AlphaMissense مشابه جدًا لتطبيق AlphaFold، مع وجود تعديلات طفيفة فقط على البنية التحتية.

الشكل 3: مخطط هيكل AlphaMissense

تأتي بيانات تدريب AlphaMissense من مجموعة واسعة من المصادر، ولكن في المقام الأول من البشر والقرود غير البشرية.ومن بينها، هناك 1,248,533 طفرة حميدة مشتقة من البشر، ويتم استخراج الطفرات المسببة للأمراض من 65,314,044 طفرة قد تحدث ولكن لم يتم ملاحظتها بعد.

يتكون تدريب AlphaMissense من خطوتين. أولاً، مثل AlphaFold، يحتاج AlphaMissense إلى التنبؤ بالأحماض الأمينية المقنعة عشوائيًا في محاذاة تسلسل متعددة.ثم قم بالتنبؤ ببنية البروتينات ذات السلسلة المفردة وأجري نمذجة لغة البروتين.

ثم،قام الباحثون بضبط AlphaMissense باستخدام البروتينات البشرية.وقد تم تحديد هدف مخرجات النموذج، ألا وهو مسببات الأمراض للطفرة غير المتماثلة.

نظرًا لوجود عدد كبير من الطفرات الحميدة بين الطفرات غير الملاحظة، ولكن يتم تصنيفها على أنها طفرات مسببة للأمراض أثناء التدريب، فإن مجموعة تدريب AlphaMissense صاخبة للغاية.ومن أجل تحسين كمية ونوعية مجموعة التدريب، استخدم الباحثون التقطير الذاتي لتصفية البيانات.

التحقق من البيانات السريرية:الأداء في مجموعات البيانات المختلفة

بعد الانتهاء من التدريب،تم التحقق من صحة AlphaMissense باستخدام البيانات السريرية الموضحة (مجموعة بيانات ClinVar)، والمتغيرات الجديدة في المرضى الذين يعانون من اضطرابات النمو النادرة، ونتائج MAVE في ProteinGym.

أولاً، قام الباحثون بتقييم أداء AlphaMissense على مجموعة بيانات ClinVar. بعد تحليل 18,924 موقع طفرة،تبلغ قيمة auROC لـ AlphaMissense 0.940، وهو تحسن مقارنة بالنموذج التطوري المتطور السابق (EVE) (0.911).

عند تقييم الطفرات غير الطبيعية سريريًا، يركز المرء عادةً على الجينات المرتبطة بأمراض محددة. لذلك، من المهم بشكل خاص التمييز بين الطفرات الحميدة والطفرات المسببة للأمراض في هذه الجينات. استخدم الباحثون AlphaMissense لتحليل 612 جينًا في ClinVar.إن auROC الخاص به هو 0.950، وهو أفضل من 0.921 الخاص بـ EVE.

وأخيرًا، قام الباحثون بتحليل نتائج التنبؤ الخاصة بـ AlphaMissense في مجموعة بيانات فك رموز اضطرابات النمو (DDD). تبلغ قيمة auROC الخاصة بـ AlphaMissense 0.809، وهي مماثلة لقيمة 0.797 الخاصة بـ PrimateAI.

الشكل 4: مقارنة أداء AlphaMissense والنماذج الأخرى في مجموعات البيانات المختلفة

أ: تحليل مواقع الطفرة في ClinVar؛

ب: تحليل الجينات في ClinVar؛

ج: تحليل مجموعة بيانات DDD.

وفي الوقت نفسه، كانت نتائج التنبؤ الخاصة بـ AlphaMissense لمناطق السرطان الساخنة، وACMG (الكلية الأمريكية لعلم الوراثة الطبية) وبيانات MAVE الأخرى أفضل من النماذج الأخرى.تظهر النتائج أعلاه أن AlphaMissense يتفوق على النماذج الموجودة في مجموعات البيانات المتعددة.

أداء التنبؤ العام:عكس اتجاهات طفرة البروتين

بعد التحقق من AlphaMissense بالبيانات السريرية،استخدم الباحثون AlphaMissense للتنبؤ بالطفرات المحتملة لـ 216 مليون حمض أميني في 19233 بروتينًا شائعًا في البشر، وفي النهاية حصلوا على تنبؤات لـ 71 مليون طفرة غير مفهومة.

تتراوح نتائج التنبؤ بالقدرة المرضية لـ AlphaMissense بين 0 و1، وكلما اقتربت القيمة من 1، زادت احتمالية القدرة المرضية. نظرًا لأن الغالبية العظمى من التوقعات قريبة من 0 و1، فمن المرجح أن تكون القيم بين 0.2 و0.8 أقل دقة. وفي النهاية، قاموا بتصنيف التوقعات إلى ثلاث فئات:من المحتمل أن تكون مسببة للأمراض، ومن المحتمل أن تكون حميدة، وغير محددة.

لتقييم الأداء التنبئي لـ AlphaMissense بشكل عام، قام الباحثون بحساب مسببات الأمراض للأحماض الأمينية الفردية لجميع البروتينات. وتظهر النتائج أنالطفرات في الأحماض الأمينية العطرية والسيستين أكثر عرضة للتسبب في المرض، وهو ما يتفق مع النتائج الفعلية.لأن هذين الحمضين الأمينيين يلعبان دورًا في الحفاظ على بنية البروتين.

الشكل 5: خريطة حرارية لنتائج التنبؤ بـ AlphaMissense،تمثل كتل الألوان متوسط مسببات الأمراض لـ 216 مليون تغير في الأحماض الأمينية في البروتينوم

بعد تصور نتائج التنبؤ الخاصة بـ AlphaMissense والبنية البروتينية التي تنبأ بها AlphaFold، يمكننا رؤية اتجاهات الطفرة لهذه البروتينات.على سبيل المثال، تتوافق المناطق ذات البنية البروتينية غير المنظمة مع المناطق التي تحدث فيها طفرات حميدة، وهو ما يتوافق مع نتائج التنبؤ بالتحليل البروتيني.

الشكل 6: نتائج تصور بعض البروتينات في مجموعات بيانات ACMG وMAVE

على اليسار، يظهر معدل الأمراض الذي تنبأت به AlphaMissense. تظهر الطفرات غير المحددة التي قد تسبب المرض باللون الأحمر، وتظهر الطفرات غير المحددة التي قد تكون حميدة باللون الأزرق، ويتم تمييز الطفرات التي تم تضمينها في مجموعة بيانات ClinVar بدوائر صلبة. على اليمين يوجد هيكل البروتين الذي تنبأ به AlphaFold. تشير الألوان المختلفة إلى مسببات الأمراض للطفرات في هذه المنطقة، المقابلة لـ AlphaMissense.

دقة التنبؤ:التوافق مع نتائج MAVE

للتحقق من الاتساق بين نتائج AlphaMissense وMAVE، قام الباحثون بتحليل مجموعتين من بيانات MAVE باستخدام AlphaMissense.بالمقارنة مع طرق التنبؤ الأخرى، فإن AlphaMissense هو الأقرب إلى بيانات MAVE.

الشكل 7: معامل ارتباط سبيرمان لـ AlphaMissense والنماذج الأخرى مع نتائج تنبؤ MAVE،ومن بينهم، AlphaMissense لديه أفضل نتيجة

ثم قاموا بمقارنة بيانات التنبؤ الخاصة بـ AlphaMissense مع مسببات الأمراض لطفرة Missense التي تم التحقق منها من خلال التجارب. يمكن لبروتين SHOC2 أن يشكل معقدًا مع بروتينات MRAS و PP1C لتنشيط مسار السرطان Ras-MAPK. تنبأت كل من AlphaMissense وMAVE بالارتباط بين هذه الطفرة وخلايا سرطان Ras.وقد تم الحصول على معامل ارتباط سبيرمان وهو 0.47 وهو أفضل من النماذج الأخرى. (ESM1v: 0.41، ESM1b: 0.40، EVE: 0.32).

الشكل 8: نتائج التنبؤ للنماذج المختلفة للطفرات غير المتجانسة في مجموعة بيانات MAVE

علاوة على ذلك، قام الباحثون باستكشاف نتائج التنبؤ الخاصة بـ AlphaMissense بشأن مسببات الأمراض لطفرة فقدان الأحماض الأمينية في مناطق مختلفة من بروتين SHOC2. من بين أول 80 حمضًا أمينيًا من SHOC2، تنبأت MAVE بأن الطفرات في الأحماض الأمينية 63-74 مسببة للأمراض لأن هذه المنطقة ترتبط ببروتين PP1C من خلال RVxF. AlphaMissense هو النموذج الوحيد الذي يحدد هذه المنطقة المهمة.

الشكل 9: نتائج التنبؤ بـ AlphaMissense لبروتين SHOC2

أ: نتائج التنبؤ بنماذج مختلفة حول مسببات الأمراض للطفرات في أول 200 حمض أميني من بروتين SHOC2. من الأعلى إلى الأسفل، هم الوضع الفعلي (MAVE)، وAlphaMissense وEVE؛

ب: الرسم التخطيطي الهيكلي للمركب المكون من بروتين SHOC2 (الأحمر والأزرق) وبروتينات MRAS (الأصفر) و PP1C (الذهبي).

علاوة على ذلك، يمكن لـ AlphaMissense أن يعكس نتائج أنواع مختلفة من طفرات فقدان المعنى للأحماض الأمينية.بالنسبة لبروتين SHOC2، فإن نتائج التنبؤ الخاصة بـ AlphaMissense هي الأقرب إلى النتائج الفعلية.

الشكل 10: الارتباط بين النماذج المختلفة للتنبؤ بمسببات الأمراض لطفرة الأحماض الأمينية في نتائج SHOC2 وMAVE

تشير النتائج المذكورة أعلاه بشكل جماعي إلى أن نتائج التنبؤ الخاصة بـ AlphaMissense قابلة للمقارنة مع نتائج MAVE ويمكنها التنبؤ بدقة بنتائج طفرات الجينات الخاطئة.

وأخيرًا، قامت Deepmind بإتاحة النموذج ونتائج التنبؤ مفتوحة المصدر للمجتمع، على أمل أن تساعد الاستنتاجات في الأبحاث في تخصصات أخرى.

رابط النموذج:

https://github.com/deepmind/alphamissense

طفرة الجينات: بعيدة المنال ولكنها موجودة دائمًا

عندما يتعلق الأمر بالطفرة الجينية، فإننا نفكر بسهولة في عناصر خطيرة مثل الأشعة السينية، والإشعاع النووي، والنتريت، أو مشاهد من أفلام Resident Evil وThe Hulk، ونشعر أن هذه العناصر بعيدة جدًا عنا. من المؤكد أن الإشعاع الذي نتعرض له في حياتنا اليومية صغير جدًا.لكن الطفرات الجينية لا تزال تحدث في كل لحظة في حياتنا وتغير حياتنا بالفعل.

في الحياة، نحن معرضون حتما لمصادر الإشعاع.، مثل ضوء الشمس. إن الإشعاع الموجود في ضوء الشمس يأتي من الأشعة فوق البنفسجية، والتي تعد أحد العوامل المسببة للسرطان. ولذلك فإن التعرض لأشعة الشمس لفترات طويلة يزيد من خطر الإصابة بسرطان الجلد.

حتى بدون التعرض لمصادر الإشعاع،يرتكب الحمض النووي DNA حتما بعض الأخطاء أثناء التضاعف والنسخ والترجمة، مما يتسبب في حدوث طفرات جينية.ولكن هذه الطفرات قد تكون حميدة أو يتم التخلص منها بمرور الوقت بواسطة آلية المناعة.

ولكن في الوقت نفسه، توفر الطفرات الجينية أيضًا الراحة لحياتنا.وخاصة في الإنتاج الزراعي. يمكن أن تعمل الطفرات المحصولية على زيادة إنتاجية المحاصيل وتحسين قدرة المحاصيل على تحمل الملح والقلويات، وحتى المساعدة في السيطرة على الآفات. وبعد تربية هذه الطفرات وفحصها، يمكن الاحتفاظ بهذه الخصائص الممتازة، وبالتالي زيادة إنتاج الغذاء.

الشكل 11: أنواع مختلفة من طفرات الذرة

ومع ذلك، هناك الكثير من الاحتمالات لحدوث طفرات في الجينات البشرية، وما نعرفه حاليا هو مجرد قطرة في المحيط. باستخدام AlphaMissense، يمكننا إجراء تنبؤات موثوقة نسبيًا حول نتائج الطفرات الجينية، ومن ثم استنتاجها.وربما نتمكن من اكتشاف الآليات الكامنة وراء الأمراض الوراثية والأمراض النادرة وتوفير أساليب جديدة للوقاية من الأمراض وعلاجها.

وفي الوقت نفسه، يوفر AlphaMissense أيضًا مواد للبحث في مجالات أخرى. وربما سنتمكن قريبًا من رؤية AlphaMissense وهو يفسر الطفرات الجينية في الأنواع الأخرى.ومن ثم يمكننا أن نستغل الطفرات الجينية بشكل عقلاني ونسمح للهندسة الوراثية بإحضار المزيد من الفوائد إلى حياتنا.

روابط مرجعية:

[1]https://www.science.org/doi/10.1126/science.abj6987

[2]https://www.cshl.edu/discovery-of-new-stem-cell-pathway-indicates-route-to-much-higher-yields-in-maize-staple-crops/

تم نشر هذه المقالة لأول مرة على منصة HyperAI WeChat العامة~