الدكتور بينجكسين تشو من جامعة شنغهاي جياو تونغ: ترسيخًا لتحدي البيانات البيولوجية النادرة، تعمل الشبكات العصبية الرسومية على إعادة تشكيل فهم البروتين وتوليده

في 12 أغسطس، افتتحت رسميًا مدرسة الذكاء الاصطناعي للهندسة الحيوية الصيفية بجامعة شنغهاي جياو تونغ، والتي اجتذبت أكثر من 100 من المطلعين على الصناعة من أكثر من 30 جامعة و27 شركة في الداخل والخارج. خلال الدراسة والتبادل التي استمرت ثلاثة أيام، التقى العديد من خبراء الصناعة وممثلي الأعمال والعلماء الشباب المتميزينتم تقديم مشاركة متعمقة حول تكامل وتطوير الذكاء الاصطناعي والهندسة الحيوية بشكل مبتكر.
في صباح اليوم الثاني عشر، تحدث تشو بينج شين، الباحث المساعد في معهد العلوم الطبيعية بجامعة شنغهاي جياو تونغ والمركز الوطني شنغهاي للرياضيات التطبيقية (فرع جامعة شنغهاي جياو تونغ)، حول موضوع "الماضي والحاضر للذكاء الاصطناعي". ويقوم الكتاب بتصنيف تاريخ تطور الذكاء الاصطناعي بشكل واضح ويلخص خصائص نموذج المعالم.
وفي فترة ما بعد الظهر، تحدث الدكتور تشو بينج شين أيضًا في تقرير الخبير الضيف عن "التقدم الرائد للذكاء الاصطناعي" حول موضوع "الشبكات العصبية البيانية وتمثيل بنية البروتين". لقد شاركنا مع الجميع تعريف ومزايا وتطبيقات الشبكات العصبية الرسومية المتطورة في مجالات مثل التنبؤ بالبروتين وتوليده. قام HyperAI بتجميع وتلخيص خطاب الدكتور تشو بينجكسين حول هذا الموضوع دون انتهاك القصد الأصلي. وفيما يلي نص الخطاب:
بعد عقود من التطور السريع، أنتج التعلم العميق نماذج مختلفة مثل الشبكات العصبية التلافيفية، والشبكات العصبية المتكررة، والمحول، والتي يمكن استخدامها لمعالجة البيانات ذات الخصائص المختلفة. ومن بينها، تُستخدم الشبكات العصبية الرسومية على نطاق واسع في سيناريوهات مختلفة مثل الشبكات الاجتماعية، وتوقع المسار، والنمذجة الجزيئية، وما إلى ذلك، لأنها قادرة على إدخال البيانات البنيوية ومعالجتها.
ومع ذلك، يعتقد الكثير من الناس أن الشبكات العصبية الرسومية هي شبكات ملتوية رسومية (GCNs)، والتي لا يمكنها أن تتناسب مع الوظائف المعقدة وقد تواجه مشاكل الإفراط في التنعيم عندما يتم تكديس طبقات متعددة، ولديها العديد من القيود. بالإضافة إلى ذلك، نظرًا لأن النماذج الكبيرة المستندة إلى المحولات تتمتع بقدرات تعلم قوية على مجموعات البيانات الكبيرة،فلماذا نستمر في البحث والتطوير في مجال الشبكات العصبية البيانية؟
بالنسبة لهذه الأسئلة، أستطيع تلخيص الإجابة على النحو التالي: "إنه مثير".
الأول هو أن الأبحاث المبنية على الشبكات العصبية البيانية صحية ومستدامة. وكما هو موضح في الشكل أدناه، من خلال مقارنة استهلاك الكربون لمختلف السلوكيات البشرية، يمكننا أن نرى أن الفرضية الأساسية للنموذج الكبير ليكون له قدرات قوية هي استهلاك الطاقة الهائل. علاوة على ذلك، فإن الإفراط في تركيز موارد الحوسبة والبحث على النماذج الكبيرة من شأنه أيضًا أن يضغط على المساحة المعيشية لأبحاث النماذج الأخرى. وعلى المدى الطويل، لن تتمكن إلا الشركات الكبيرة التي تحتكر موارد الحوسبة أو قوة الخطاب من الحفاظ على البحث والتطوير في مجال الذكاء الاصطناعي، وسوف تكون مساحة البحث العلمي للباحثين في الشركات غير الكبيرة مقيدة إلى حد كبير.

أما الأمر الثاني فهو أنه لا ينبغي لنا أن نتجاهل مئات السنين من التراكم في العلوم الطبيعية في ظل التطور السريع للذكاء الاصطناعي. بالإضافة إلى تعلم تمثيل الميزات، يمكن للشبكات العصبية البيانية أيضًا دمج المعرفة السابقة من البشر بشكل أنيق (التحيز الاستقرائي). بالإضافة إلى ذلك، بالمقارنة مع نماذج أخرى تعتمد على البيانات، تتمتع الشبكات العصبية البيانية بدعم نظري أكبر، مثل معالجة الإشارات، والديناميكيات الاجتماعية، وما إلى ذلك.
تساعد الشبكات العصبية الرسومية الثالثة "X" في تعزيز قابلية تفسير شبكات التعلم العميق. مع تطور الذكاء الاصطناعي، أصبح الناس يهتمون أكثر فأكثر بأهمية وعقلانية نتائج النماذج. من خلال البحث المتعمق حول إمكانية تفسير الشبكات العصبية البيانية، يمكننا فهم المنطق والأساس وراء قرارات النموذج بشكل أفضل وتحسين موثوقية النموذج وثقته.
رابعا، "Y": باعتبارها مجالًا شابًا وسريع التطور، لا تزال الشبكات العصبية الرسومية تعاني من عدد كبير من المشاكل والتحديات التي لم يتم حلها، مما يوفر للباحثين مساحة واسعة للاستكشاف. بالإضافة إلى ذلك، تمامًا مثل الشبكات العصبية التلافيفية لمعالجة الصور وآليات الاهتمام الذاتي لمعالجة اللغة الطبيعية، ستوفر الشبكات العصبية البيانية أيضًا حلولاً جيدة للعديد من المشكلات البيولوجية (خاصة تلك التي تحتوي على بيانات غير كافية ومعرفة مسبقة مهمة).
بعد ذلك، سأشارك معكم القيمة التطبيقية المحددة للشبكات العصبية الرسومية من ثلاثة جوانب: البيانات الجزيئية وتمثيل الرسم البياني، ومقدمة إلى الشبكات العصبية الرسومية الكلاسيكية، والشبكات العصبية الرسومية والمزيد من المشاكل البيولوجية.
البيانات الجزيئية والتمثيل البياني: ثلاثة عناصر من رسومات البيانات البيولوجية
إذا كنت تريد تحويل البيانات البيولوجية إلى تمثيل بياني، يجب عليك أولاً الإجابة على: ما هو الرسم البياني وما هي العناصر الأساسية التي يتكون منها؟ وبصفة عامة،يحتوي الرسم البياني على ثلاثة عناصر: العقد؛ الحواف (علاقات الاتصال بين العقد)؛ الرسوم البيانية (الكيان الكامل المكون من العقد والحواف).
كيف نستخدم هذه العناصر الثلاثة لتحديد موضوع الدراسة في علم الأحياء؟ الشكل التالي يوضح 4 حالات:

بالنسبة لجزيء صغير (الشكل يمكن تعريف كل ذرة على أنها عقدة، ويمكن تمثيل العلاقة بين المسافة أو العلاقة الرابطة الكيميائية بين الذرات بواسطة الحواف.
إذا نظرنا إلى البروتين على مستوى الأحماض الأمينية، يمكن النظر إلى البروتين ككل على أنه رسم بياني، حيث يمثل كل حمض أميني عقدة في الرسم البياني. عندما تكون الأحماض الأمينية المختلفة قريبة من بعضها في المواضع المكانية، يمكن افتراض وجود علاقة معينة بينها، وترتبط هذه العقد القريبة من الأحماض الأمينية مكانيًا بواسطة الحواف.
وبالمثل، إذا نظرنا إلى البروتينات بناءً على بنيتها الثانوية، ومن ثم يمكن اعتبار كل بنية ثانوية بمثابة عقدة في مخطط البروتين، وترتبط هياكلها الثانوية المجاورة أو القريبة مكانيًا بالحواف.
وأخيرًا، بالنسبة لرسم بياني لمعرفة المرض، يمكن اعتبار الأمراض المختلفة والجينات والأدوية والمرضى والعناصر الأخرى بمثابة عقد، وتمثل الروابط بين العقد العلاقات المعقدة فيما بينها، مثل أن دواء معين يمكن أن يعالج مرضًا معينًا، أو أن جينًا معينًا يسبب مرضًا معينًا.
بعد تعريف الرسم البياني،والخطوة التالية هي النظر في كيفية وصف المعلومات الموجودة على الرسم البياني، مثل خصائص العقد والحواف؟
كما هو موضح في الشكل أدناه، هناك علاقات معينة بين العقد الأربع. من أجل وصف هذه العلاقات بدقة، يمكن تعريف مصفوفة التجاور A. عند معالجة بيانات بيولوجية مختلفة، يمكن استخدام مصفوفة التجاور لتحديد ما إذا كانت هناك روابط تساهمية بين الذرات أو لتحديد جيران الدرجة k لحمض أميني معين.

بالإضافة إلى ذلك، يمكن ربط كل عقدة وحافة بمجموعة من السمات. إذا أخذنا عقدة حمض أميني كمثال، فإن سمات العقدة قد تتضمن معلومات مميزة مثل نوعها وخصائصها الفيزيائية والكيميائية. تعمل الحواف كجسور تربط العقد ويمكنها أيضًا حمل معلومات الميزات. على سبيل المثال، يغطي متجه الميزة على كل حافة المسافة بين حمضين أمينيين (بما في ذلك مسافة التسلسل والمسافة المكانية) والأساس لإنشاء الحافة (بناءً على البنية المكانية أو الروابط الكيميائية الذرية، وما إلى ذلك). توفر ميزات الحافة هذه منظورًا أكثر تفصيلاً وعمقًا لفهم العلاقة بين العقد.
في ملخص،يمكن تمثيل كل كيان منظم (مثل البروتين) على شكل رسم بياني. كما هو موضح في الشكل أدناه: يمكن استخدام G لتمثيل الرسم البياني، ويمثل v العقدة، ويمثل ε الحافة، ويمثل Xv الميزات الموجودة على العقدة، وتمثل مصفوفة الجوار A اتصال العقدة، ويمثل Xe ميزات الحافة.

بناءً على العناصر الأساسية الثلاثة للرسم البياني (العقد والحواف والرسوم البيانية)، يمكن تصنيف مهام تمثيل المتجهات والتنبؤ بها على الرسم البياني على النحو التالي:
- التنبؤ على مستوى العقدة. على سبيل المثال، عند القيام بتصميم تسلسل البروتين، وبالنظر إلى رسم بياني معروف للبروتين، توقع نوع الأحماض الأمينية التي يمثلها كل عقدة في الرسم البياني.
- رابط التنبؤ. بالنظر إلى الرسم البياني وجميع العقد، استنتج ما إذا كانت هناك علاقات بين العقد، مثل شبكات تنظيم الجينات ورسوم بيانية لمعرفة الأدوية ومهام التنبؤ الأخرى.
- التنبؤ بالرسم البياني (التنبؤ على مستوى الرسم البياني). عندما يتم تحديد كل من العقد والحواف، يتم تعلم العديد من الرسوم البيانية وتحليلها في نفس الوقت للتنبؤ بتسميات كل رسم بياني.
ما هي الشبكات العصبية الرسومية: ليست فقط GCN، بل أيضًا GAT وGraphSAGE وEGNN والمزيد
تبحث الشبكات العصبية الرسومية عن تمثيلات الطبقة المخفية لكل عقدة بناءً على علاقات الاتصال بين العقد المحددة، وتجد تمثيل متجه لكل عقدة. بالمقارنة مع أنواع أخرى من البيانات، فإن الميزة الأكثر أهمية للرسم البياني هي أنه يمكنه الإشارة بوضوح إلى العقد المرتبطة مباشرة ببعضها البعض ومدى قرب العلاقات بين العقد المختلفة.لذلك، فإن جوهر الشبكات العصبية البيانية يكمن في استخدام هذه التحيزات الاستقرائية وتمرير الرسائل بين العقد المتصلة. كلما اقتربت العقد المجاورة، زاد تأثيرها على العقدة المركزية.
بعد ذلك، سأشارك معكم العديد من الشبكات العصبية التلافيفية البيانية الكلاسيكية.
الأول هو الشبكة العصبية التلافيفية البيانية GCN، كما هو موضح في الشكل أدناه، فإن جوهر الأمر هو أن كل طبقة من GCN سوف تجمع في المتوسط معلومات الجيران من الدرجة الأولى للعقدة المركزية، وتستخدم المعلومات المجمعة كتمثيل جديد للعقدة المركزية.

من التعبير، يمكننا أن نرى أن الفرق بين GCN وMLP هو أن GCN يضيف مصفوفة الجوار ويستخدم معلومات الجار من الدرجة الأولى لتحديث تمثيل العقدة. بالإضافة إلى ذلك، فإنه يضيف حلقات ذاتية لتعزيز معلوماته الخاصة عند تجميع المعلومات، ويقوم بإجراء المتوسط المرجح بناءً على عدد الجيران لكل عقدة مجاورة.
- الجيران من الدرجة الأولى: العقدة المركزية متصلة مباشرة بالعقد الأخرى، أي أن النقاط التي يمكن الوصول إليها من خلال حافة واحدة تسمى الجيران من الدرجة الأولى.
والثانية هي شبكة اهتمام الرسم البياني (GAT). بالمقارنة مع GCN، فإن التغيير الرئيسي في GAT هو طريقة حساب الأوزان عند تجميع معلومات الجيران. تستخدم GCN أوزانًا محسوبة بناءً على مصفوفة الجوار، بينما تحسب GAT وزنًا قابلًا للتعلم بناءً على خصائص العقد المجاورة.

الطريقتان المذكورتان أعلاه هما ممثلين نموذجيين للطرق الاستقرائية. إنها تتطلب رسمًا بيانيًا كاملاً كمدخل، مما يزيد من التعقيد الحسابي.وفي هذا الصدد، يقترح GraphSAGE نهجًا استقرائيًا. في كل مرة يتم فيها إرسال المعلومات، يكون من الضروري فقط فهم الجيران من الدرجة الأولى للعقدة المركزية، ويتم اختيار جزء فقط من معلومات الجار بشكل عشوائي للتجميع.

تهدف الطرق الثلاث المذكورة أعلاه إلى تحديث تمثيل العقد على الرسم البياني للهيكل الطوبولوجي ثنائي الأبعاد، وتقوم شبكة تمرير الرسائل اللاحقة (MPNN) بدمج هذا النوع من طريقة تجميع المعلومات في إطار عمل. ومع ذلك، فإن العديد من البيانات البيولوجية (مثل الجزيئات) تحتاج أيضًا إلى مراعاة البنية ثلاثية الأبعاد.من أجل دمج المعلومات المكانية، يمكن استخدام الشبكة العصبية البيانية المتغيرة (EGNN). كما هو موضح في الشكل أدناه، فإن جوهر هذه الطريقة هو أنه بالإضافة إلى معلومات الميزة الخاصة بالعقدة نفسها، يتم أيضًا تقديم علاقة الموضع النسبي بين العقد لضمان التباين الدوراني والثبات الترجمي للتمثيل المكتسب.

بالإضافة إلى ذلك، هناك العديد من تصميمات الشبكات العصبية الرسومية المتقدمة. لا تستطيع بعض التصميمات تحسين الأداء التنبئي للنموذج فحسب، بل تركز أيضًا على تحسين الكفاءة، وتقليل الإفراط في التنعيم، وإضافة تمثيل متعدد المقاييس، واحتياجات أخرى. من خلال تقديم تمرير الرسائل المستمر، وطرق التفاف الرسم البياني الطيفي، وما إلى ذلك، فإنه يمكن أيضًا توفير شبكات عصبية بيانية أكثر تعبيرًا لمشاكل محددة.
تطبيقات مهمة للشبكات العصبية البيانية: أخذ التنبؤ بخصائص البروتين وتوليد التسلسل كمثال
بعد ذلك، سأشارك معكم تطبيق الشبكات العصبية البيانية في تعلم تمثيل البروتين.هنا أقوم بتقسيمها إلى فئتين: نماذج التنبؤ ونماذج التوليد.
ترميز ميزات البروتين والتنبؤ بالخصائص
من حيث مهام التنبؤ، نأخذ في الاعتبار ثلاثة أنواع من المهام: التنبؤ بخاصية الطفرة، والتنبؤ بالذوبان، ومطابقة الرسم البياني الفرعي، وهي أربع مهام محددة.
العمل الأول يتعلق بالتنبؤ بمهمة الطفرة. كما هو موضح في الشكل أدناه، استخدمنا شبكات عصبية بيانية متغايرة لتوصيف العلاقات المكانية الداخلية للأحماض الأمينية البروتينية، حيث تمثل كل عقدة حمضًا أمينيًا، مما يشير إلى نوع وخصائص فيزيائية وكيميائية وخصائص أخرى للحمض الأميني عند هذه النقطة. تعكس الاتصالات الحافة على الرسم البياني العلاقات بين الأحماض الأمينية، مثل إمكانية التطور المشترك وتأثير القوى المتبادلة.

ثم استخدمنا نموذجًا تنبؤيًا لتسجيل الطفرات المختلفة وتحديد مجموعات الطفرات عالية التسجيل التي من المرجح أن تعمل على تحسين خصائص البروتين. يمكن لهذه الشبكة العصبية البيانية خفيفة الوزن أن تقلل بشكل كبير من تكاليف التدريب والبيانات من خلال دمج الأحماض الأمينية والعلاقات بين الأحماض الأمينية، مما يجعل النموذج صغيرًا وجميلًا مع الحفاظ على الأداء العالي. بالإضافة إلى ذلك، أثبتت التجارب الرطبة على خصائص البروتين المختلفة أن هذا النموذج يمكن أن يحسن بشكل كبير من تأثير ومعدل نجاح التطور الموجه. كان عنوان البحث "هندسة البروتين باستخدام الشبكات العصبية خفيفة الوزن لإزالة الضوضاء من الرسوم البيانية" وتم نشره في ACS JCIM.
عنوان الورقة:
https://pubs.acs.org/doi/10.1021/acs.jcim.4c00036
المهمة الثانية هي إضافة المزيد من ترميز تسلسل البروتين بناءً على الترميز البنيوي. ويرجع ذلك إلى أن المعلومات البنيوية تفترض أن التفاعلات بين الأحماض الأمينية المتجاورة أقوى، في حين أن التفاعلات على مسافات طويلة تكون ضعيفة للغاية. لا يتناسب هذا الافتراض بشكل كامل مع الوضع الفعلي، لذا فإن المعلومات التسلسلية ضرورية لتكملة النظر في التفاعلات طويلة المدى. بالإضافة إلى ذلك، فإن المعلومات المتعلقة بالخصائص البيولوجية المختلفة لها تركيزات مختلفة. بالنسبة لطاقة الارتباط والاستقرار الحراري، تلعب المعلومات البنيوية دورًا مهيمنًا، ولكن عندما يتعلق الأمر بخصائص مثل النشاط التحفيزي، فإن المعلومات المتعلقة بنوع الأحماض الأمينية تكون أكثر أهمية.
كما هو موضح في الشكل أدناه، أجرينا اختبارات تجريبية على أكثر من 200 تحليل على ProteinGym وحصلنا على أفضل أداء للطرق غير MSA. نُشرت الدراسة في مجلة eLife تحت عنوان "الترميز البروتيني الدلالي والهندسي نحو تعزيز النشاط الحيوي والثبات الحراري".
عنوان الورقة:
https://elifesciences.org/reviewed-preprints/98033

إن وحدة ترميز مستوى الأحماض الأمينية في العمل الثالث تتفق مع تلك الموجودة في العمل الثاني. يعتمد تكامل المعلومات على تسلسل البروتين وبنيته. الفرق هو أنه يدمج أيضًا مجموعة متنوعة من المعلومات على مستوى البروتين استنادًا إلى المعرفة السابقة، مثل طول البروتين، والتوزيع النسبي لـ 20 حمضًا أمينيًا، وما إلى ذلك.
كما هو موضح في الشكل أدناه، قمنا باختبار التأثير التنبئي للنموذج على ذوبان البروتين وحققنا نتائج SOTA على آلاف البيانات الاختبارية بناءً على الحسابات والتجارب. تم قبول البحث الذي يحمل عنوان "ProtSolM: التنبؤ بذوبان البروتين باستخدام الميزات متعددة الوسائط" من قبل IEEE BIBM2024 (مؤتمر CCF الفئة B).
عنوان ورقة ما قبل الطباعة:
https://www.arxiv.org/abs/2406.19744

المهمة الرابعة هي استكشاف أوجه التشابه المحلية بين هياكل البروتين. كما هو موضح في الشكل أدناه، على الرغم من أن البروتين كبير الحجم ككل، إلا أن جوهره قد يكمن في بعض السمات الهيكلية المحلية. بالإضافة إلى ذلك، من منظور عياني، قد يكون البروتينان مختلفين تمامًا في التسلسل والبنية، لكنهما يمتلكان وحدات وظيفية أساسية متشابهة أو حتى متطابقة.

وبالتالي، نجد تمثيلًا ضمنيًا للبنية المحلية لكل بروتين ونحسب التشابه بين هذه المتجهات. بالإضافة إلى مقارنة التشابه الفردي بين الهياكل، نقوم أيضًا بتقييم ما إذا كانت هناك أجزاء هيكلية محلية قابلة للتوافق بين بروتينين كاملين. تم قبول البحث، الذي يحمل عنوان "تعلم تمثيل البروتين باستخدام تضمين معلومات التسلسل: هل يؤدي دائمًا إلى أداء أفضل؟"، من قبل IEEE BIBM2024.
عنوان ورقة ما قبل الطباعة:
https://arxiv.org/abs/2406.19755
إنشاء التسلسل
بعد ذلك، سأشارك معكم عملين، وهما تصميم تسلسلات الأحماض الأمينية المناسبة للبنية البروتينية. النماذج الأساسية لهذين العملين هي نماذج احتمال الانتشار (الانتشار).
المهمة الأولى هي تصميم تسلسل بروتيني كامل يعتمد على هيكل الأحماض الأمينية المعروفة لتحسين أداء البروتين. يظهر إطار النموذج في الشكل أدناه. وعلى عكس التطور الموجه، قمنا بتعديل مئات الأحماض الأمينية في وقت واحد وحصلنا على تسلسلات بروتينية ذات تنوع أكبر. من ناحية أخرى، قد تجد هذه الطريقة نقطة بداية جديدة تمامًا للتطور وتجنب مشاكل مثل المثالية المحلية والتأثيرات السلبية التصاعدية الشائعة في التطور الموجه؛ ومن ناحية أخرى، من خلال تعديل المزيد من الأحماض الأمينية للحصول على بروتينات ذات تشابه تسلسل أقل ولكنها تؤدي نفس الوظيفة، يصبح من الممكن كسر الحصار المفروض على براءات الاختراع.

لقد استخدمنا بروتينين من نوع Argonaute (يعملان في درجات حرارة متوسطة وعالية للغاية على التوالي) كقوالب تصميم، ومعظم البروتينات التي تم إنشاؤها والتي يزيد عددها عن 40 بروتينًا يمكنها إجراء انقسام الحمض النووي في درجة حرارة الغرفة. يتمتع التصميم الأفضل بنشاط انقسام أعلى بعشر مرات من النوع البري، كما تم تحسين استقراره الحراري بشكل كبير. نُشرت الدراسة، التي تحمل عنوان "انتشار إزالة الضوضاء البروتينية المشروطة يولد نوكليازات قابلة للبرمجة"، في مجلة Cell Discovery.
عنوان ورقة ما قبل الطباعة:
https://www.biorxiv.org/content/10.1101/2023.08.10.552783v1
المهمة الثانية، كما هو موضح في الشكل أدناه، هي تحديد عدد وموقع الأحماض الأمينية التي يجب ملؤها بشكل مستقل بناءً على البنية الثانوية دون تقييد صارم لبنية العمود الفقري للأحماض الأمينية. بالمقارنة مع طريقة التوليد القائمة على الهيكل العظمي، فإن حالة التوليد الأكثر خشونة هذه يمكن أن تقدم تنوعًا متسلسلًا في التسلسل الناتج، ويمكنها أيضًا تلبية الاحتياجات المحددة لتعديل البروتين والتصميم الجديد (على سبيل المثال، بالنسبة للبروتينات عبر الغشاء، فإن الجزء عبر الغشاء فقط مقيد بأن يكون هيكلًا حلزونيًا، ولكن الطول والهيكل العظمي المحدد لهذا الجزء ليس مقيدًا بشكل صارم). تم قبول الدراسة، التي تحمل عنوان "إنشاء تسلسل بروتيني جديد موجه بالبنية الثانوية باستخدام انتشار الرسم البياني الكامن"، من قبل ICML AI4Science والنص الكامل قيد المراجعة.
عنوان ورقة ما قبل الطباعة:
https://arxiv.org/html/2407.07443v1

يمكن لعمليتي تصميم تسلسل البروتين المذكورتين أعلاه، استنادًا إلى الانتشار، إما إنشاء تسلسل كامل وفقًا لهيكل البروتين، أو تثبيت بعض الأحماض الأمينية الرئيسية وبنية الهيكل واستخدامها كشروط توليد لملء تسلسل الأحماض الأمينية للجزء غير الثابت.
تطبيق الشبكات العصبية البيانية على المزيد من المشاكل البيولوجية
بالإضافة إلى النمذجة البيانية الجزيئية التقليدية، يمكن أيضًا تطبيق الشبكات العصبية البيانية على أنواع أخرى من البيانات والمشاكل لتعزيز البحث في المزيد من المشاكل البيولوجية. وبعد ذلك، سأشارككم بمثالين.
المثال الأول هو تحليل وتبسيط الشبكات الاجتماعية البيولوجية. على غرار العلاقات المعقدة في الشبكات الاجتماعية البشرية، هناك الكثير من المحتوى الذي يستحق الاستكشاف في الشبكات الاجتماعية البيولوجية على مستويات مختلفة (مثل الشبكات الميكروبية، وشبكات الجينات، وما إلى ذلك).
لقد استخدمنا سابقًا شبكات التواجد الجيني المشترك لإجراء دراسات تبسيط الشبكات الاجتماعية. كما هو موضح في الشكل أدناه، فإن الشكلين (أ) و(ب) يمثلان شبكات مختلفة لنفس الجين من أعماق البحار والجبال العالية. أشكالها الأصلية معقدة وغير منظمة. من خلال إنشاء شبكة عصبية بيانية مشابهة للشبكة الاجتماعية البشرية، نقوم بتبسيط الشبكتين، وتحديد الجينات التي تشغل موقعًا مهيمنًا مطلقًا، وتمييز الجينات التي لها اتصالات أقرب والجينات التي لها اتصالات ضعيفة نسبيًا. يمكن أن تساعد الشبكة المبسطة علماء الأحياء على استخدام خبرتهم لتحليل الشبكات والمجتمعات البيولوجية. النسخة الأولية من الدراسة تحمل عنوان "وجهة نظر موحدة حول نقل الرسائل العصبية مع ديناميكيات الرأي للشبكات الاجتماعية".
عنوان ورقة ما قبل الطباعة:
https://arxiv.org/abs/2310.01272

والمثال الثاني هو البحث في قابلية التفسير استنادًا إلى الشبكة العصبية البيانية. ومن الأمثلة البديهية على ذلك أن الشبكات العصبية الرسومية يمكن أن تساعد في تحديد الهياكل المحلية الرئيسية داخل الجزيئات. ومن ناحية أخرى، يمكن استخدام هذه النتيجة لاختبار عقلانية النموذج. على سبيل المثال، عند التنبؤ بوظيفة البروتين، إذا كان النموذج قادرًا على تحديد الذرات أو الأحماض الأمينية الرئيسية بالقرب من المركز النشط إلى حد معين، فهذا يعني أن النموذج يتمتع بعقلانية معينة. وعلى العكس من ذلك، إذا تم توزيع انتباه النموذج بشكل عشوائي ومنفصل على أحماض أمينية متعددة على سطح البروتين، فقد تكون هناك مشاكل مع النموذج. ومن ناحية أخرى، من الناحية المثالية، قد يساعد نموذج توضيحي معقول وقوي، من خلال تحليل دور كل عقدة في التنبؤ الوظيفي، في تحديد مناطق الجيب للبروتينات الجديدة تمامًا في المستقبل.
وعلى الرغم من أن النماذج الكبيرة قدمت تجربة ناجحة وغنية في العديد من سيناريوهات التطبيق، إلا أنها ليست الحل الوحيد لجميع المشاكل. باعتبارها مجالًا توجد فيه بشكل طبيعي بيانات منظمة مختلفة، يمكن للشبكات العصبية البيانية أن توفر حلولاً ممكنة للعديد من المشاكل في علم الأحياء. سواء كان الأمر يتعلق بجزيئات أو مجمعات أو جينات أو شبكات ميكروبية أو أنظمة أكبر وأكثر تعقيدًا، يمكن للشبكات العصبية البيانية أن توفر حلاً بسيطًا من خلال زرع التحيزات الاستقرائية وتعظيم المعرفة البشرية السابقة حتى في حالة وجود كميات صغيرة من البيانات.
نبذة عن تشو بينغ شين

تشو بينج شين هو حاليا باحث مساعد في المركز الوطني للرياضيات التطبيقية (جامعة شنغهاي جياو تونغ). حصلت على درجة الدكتوراه من جامعة سيدني، أستراليا في عام 2022، وكانت باحثة زائرة في جامعة كامبريدج، المملكة المتحدة. تركز أبحاثه على استخدام التعلم العميق (وخاصة التعلم العميق الهندسي) لحل التحديات في علم الأحياء، مثل هندسة الإنزيمات، وشبكات الجينات الأيضية، وتحليل تطور مجموعة بنية البروتين. تُستخدم خوارزميات التعلم العميق التي تم تطويرها لمعالجة الرسوم البيانية الثابتة والديناميكية وغير المتجانسة والصاخبة، وقد تم نشر بعضها في المجلات والمؤتمرات الدولية المرموقة مثل IEEE TPAMI وJMLR وICML وNeurIPS. يمكن لإطار التعلم العميق العام للهندسة البروتينية وتصميم التسلسل تصميم نشاط البروتينات المعقدة بشكل فعال وتحسينه بشكل كبير، وقد تم نشر بعض النتائج في مجلات مثل eLife وChem. العلوم، و ACS JCIM.
الصفحة الرئيسية الشخصية:
https://ins.sjtu.edu.cn/peoples/ZhouBingxin
جوجل سكولار: