HyperAI

كيف يمارس ممارسو الذكاء الاصطناعي العلوم؟ جامعة تسينغهوا AIR تشو هاو: الاستكشاف عبر الحدود من توليد النصوص إلى تصميم البروتين

特色图像

في الآونة الأخيرة، في منتدى "الذكاء الاصطناعي من أجل العلوم" التابع لمؤتمر بكين تشي يوان،ألقى تشو هاو، الباحث المشارك في معهد الصناعات الذكية بجامعة تسينغهوا، كلمة حول موضوع "الذكاء الاصطناعي التوليدي من أجل الاكتشاف العلمي".قام HyperAI بتنظيم وتلخيص المشاركة المتعمقة للأستاذ تشو هاو دون انتهاك النية الأصلية.

كلمة البروفيسور تشو هاو

الاستكشاف عبر الحدود من توليد النصوص إلى التصميم الجزيئي

في هذا الخطاب، تناول البروفيسور تشو هاو بشكل رئيسي ثلاثة جوانب: الذكاء الاصطناعي التوليدي للرموز المعقدة، والتحديات التي تواجه توليد العينات الدقيقة، ومحتوى البحث المحدد الحالي.

وعند تقديمه لاتجاهاته البحثية ذات الصلة، قال البروفيسور تشو هاو إنه ملتزم بمعالجة اللغة الطبيعية بما في ذلك إنشاء النصوص والترجمة الآلية على مدى السنوات العشر الماضية. في العامين الماضيين،وتحول تركيزها البحثي تدريجيا من إنشاء المحتوى إلى توليد الجزيئات وتصميم البروتين.في رأيه، إذا كان عمل معالجة النصوص في الماضي يعتبر نظامًا معقدًا لرموز اللغة حيث تتكون المفردات من 26 حرفًا، فإن العمل الحالي يعادل توسيع هذه الحروف الـ 26 إلى نطاق أوسع من المجالات مثل الجدول الدوري والأحماض الأمينية والقواعد وما إلى ذلك. وقد اكتسب فريق البحث التابع له خبرة غنية بهذه التقنيات.

من الذكاء الاصطناعي الذي يركز على إنشاء المحتوى إلى الذكاء الاصطناعي المخصص للاكتشاف العلمي،ما هو الرابط بين الاثنين؟ في الواقع، يمكن للذكاء الاصطناعي توليد صور كاملة من الضوضاء، وقد استخدمت العديد من فرق البحث في أمريكا الشمالية بالفعل أساليب مماثلة لتصميم البروتينات. من خلال ترتيب الأحماض الأمينية للبروتين بشكل عشوائي في الفضاء، ثم المرور عبر سلسلة من التصاميم التوليدية من 0 إلى 2000 خطوة، من الممكن تصميم تسلسل الأحماض الأمينية الذي يبدو معقولاً تمامًا.

وعلى الرغم من وجود بعض القيود على طول البروتينات المشاركة في هذا البحث، إلا أن نتائج الأبحاث الأخيرة توسعت بشكل كبير هذه القيود وأشارت أيضًا إلى الإمكانات الهائلة لهذه التكنولوجيا، والتي قد تكون أحد الأسباب المهمة لاختيار البروفيسور تشو هاو لهذا المجال.

التحديات المتعددة التي يواجهها ممارسو الذكاء الاصطناعي عند إجراء البحوث العلمية

بعد ذلك، شارك البروفيسور تشو هاو مع الجميع التحديات الثلاثة الرئيسية التي تواجه الذكاء الاصطناعي (الذكاء الاصطناعي للعلوم) في المجال العلمي من وجهة نظر الممارسين في مجال علوم الكمبيوتر أو الذكاء الاصطناعي.

أولاً، خصوصية البيانات الجزيئية.بصفة عامة، تتم معالجة النصوص والرموز على أنها منفصلة، والصور هي إشارات مستمرة بين 0 و1، ولكن البيانات الجزيئية تحتوي على عناصر منفصلة ومتواصلة.

على سبيل المثال، عند تخزين الجزيئات في أجهزة الكمبيوتر، يقوم الباحثون عادة بتمثيلها كإحداثيات ذرية وأنواع ذرية، حيث تكون الإحداثيات الذرية مستمرة والأنواع الذرية منفصلة، مما يشكل نوعًا من البيانات متعددة الوسائط يصعب معالجتها. بالإضافة إلى ذلك، فإن الجزيئات لديها أيضًا قيود هندسية، مثل الثبات تجاه الدوران والترجمة، والتي ليست شائعة في معالجة النصوص أو الصور.

ثانياً، لا يمكن إعادة استخدام نماذج النصوص والصور بالكامل في مجال البروتين.البيانات الجزيئية ليست متعددة الوسائط فحسب، بل هي أيضًا حساسة للغاية للضوضاء. على سبيل المثال، إذا تمت إضافة ضوضاء إلى صورة كلب، فسيظل الأشخاص قادرين على التعرف على أنها صورة كلب. ومع ذلك، حتى لو تمت إضافة كمية ضئيلة من الضوضاء إلى البيانات الجزيئية، فقد يجعل ذلك من المستحيل التعرف على هوية الجزيء، مما يؤدي إلى فقدان كمية كبيرة من المعلومات. ولذلك، فإن طرق المعالجة التقليدية ليست قابلة للتطبيق بشكل كامل على هذا النوع الجديد من البيانات.

ثالثا، البيانات الجزيئية مفقودة في التسلسل.يعتمد النص بشكل ضئيل جدًا على الاتجاه من اليسار إلى اليمين، لذا يمكنه إنشاء نص جديد من اليسار إلى اليمين من خلال GPT. ومع ذلك، فإن البروتينات لديها اعتماد ثنائي الاتجاه قوي للغاية، ومن الصعب تحديد ترتيبها من الأمام إلى الخلف، ومن اليسار إلى اليمين. سيكون من الصعب للغاية استخدام نماذج النصوص أو الصور بشكل مباشر لتوليد الهياكل الجزيئية.

ولمواجهة التحديات المذكورة أعلاه،أجرى فريق البروفيسور تشو هاو أبحاثًا معمقة في بنية البيانات وخوارزمية التوليد وبناء القاعدة.

بدءًا من بنية البيانات، ابحث عن مساحة توصيف البيانات الجوهرية

احتفظ فقط بدرجات حرية الزاوية ثنائية السطوح لإعادة بناء تمثيل البنية ثلاثية الأبعاد للجزيء

"إن كيفية تحديد الفضاء الذاتي لجزيء أو بنية بيانات مستهدفة هي مشكلة يجب على علماء الكمبيوتر حلها."قال البروفيسور تشو هاو إن التمثيل الهيكلي الثلاثي الأبعاد للجزيئات مهم جدًا، ويمكن القول إن الهيكل هو الوظيفة. في الماضي، كان الباحثون يحصلون على المعلومات المطلوبة بشكل رئيسي عن طريق تسجيل إحداثيات وأنواع الذرات لبناء النماذج الجزيئية. ومع ذلك، فإن بنية الجزيء كبيرة وتحتوي على الكثير من المعلومات الزائدة. إذا تم نمذجتها بالطريقة التي تم القيام بها في الماضي، من منظور علوم الكمبيوتر، فهذه ليست ملاحظة في الفضاء الذاتي للجزيء.

في الواقع، من خلال تحليل طول الرابطة وزاوية الرابطة وزاوية السطوح الثنائية للجزيء، يمكن إيجاد أن طول الرابطة الجزيئية وزاوية الرابطة لهما عدد أقل من القمم ودرجات محدودة من الحرية، في حين أن الزاوية ثنائية السطوح لها درجات حرية أكثر. ولذلك، قام فريق البروفيسور تشو هاو بتصميم طريقة جديدة.وهذا يعني أنه مع الاحتفاظ بدرجة حرية الزاوية ثنائية السطوح، تتم إزالة درجات الحرية الزائدة الأخرى.

وعلى وجه التحديد، يمكن للبحث تحويل البنية ثلاثية الأبعاد إلى تمثيل ثنائي الأبعاد، ومن خلال معالجة التفتت الجزيئي، تقليل درجات الحرية داخل كل جزيء وتعظيم درجات الحرية بين الأجزاء. باستخدام تقنية البرمجة الديناميكية، يمكن حل مشكلة الحد الأدنى والحد الأقصى بسهولة، ومن ثم يمكن قطع جميع الجزيئات في بنية البيانات المستهدفة باستخدام خوارزمية.

عنوان الورقة:حقول التكوين الجزيئي المنظمة

رابط الورقة:https://neurips.cc/virtual/2022/poster/53277

بفضل هيكل البيانات الجديد هذا، إذا لزم الأمر إنتاج جزيئات في المستقبل، ستتمكن الأبحاث ذات الصلة من بناء الفضاء الجزيئي باستخدام بيانات قليلة جدًا. هذه الفكرة بالغة الأهمية!

من الفضاء الحقيقي إلى الفضاء الطيفي، التقاط هندسة البروتين والمعلومات الكيميائية بكفاءة

بالإضافة إلى البحث الجزيئي، يهتم فريق البروفيسور تشو هاو أيضًا بدراسة بنية البروتين ووظيفته.

عند دراسة البروتينات، عادة ما يراقبها الباحثون من بعدين: المعلومات الهندسية والمعلومات الكيميائية. ومن المعروف أن شكل البروتين ومعلوماته الكيميائية السطحية أمران حاسمان لوظيفته، وفقط عندما يتكامل الاثنان مع بعضهما البعض يمكن للبروتين أن يؤدي وظيفته على النحو الأمثل.

من أجل تمثيل المعلومات الكيميائية والهندسية للبروتينات بكفاءة،قام فريق البروفيسور تشو هاو بتحويل البروتينات من الفضاء الحقيقي إلى الفضاء الطيفي، ثم استخدم الدوال الذاتية لتمثيل البروتينات. على سبيل المثال، يتم استخدام 10 دوال ذاتية لالتقاط المعلومات ذات التردد المنخفض للبروتين، وبالتالي حل مخططه العام. بالإضافة إلى ذلك، يمكن لعدد أكبر من الوظائف الذاتية التقاط المزيد من المعلومات عالية التردد، وباستخدام 1000 وظيفة ذاتية، يمكن التقاط كل معلومات البروتين تقريبًا.

عنوان الورقة:تعلم التمثيلات الجزيئية التوافقية على متعدد الشعب الريماني

رابط الورقة:https://iclr.cc/virtual/2023/poster/10900

"إن ميزة هذا النهج هي أنه يمكنه تكرار ليس فقط المعلومات الهندسية للبروتين، بل أيضًا معلوماته الكيميائية."يمكن اعتبار كل دالة ذاتية بمثابة مساحة جديدة، ويمكن تعيين المعلومات الكيميائية الموجودة على سطح البروتين إلى هذه المساحة الذاتية. يمكن التعبير عن كل من المعلومات الهندسية والمعلومات الكيميائية في نفس الفضاء، ويتم تحويل مشكلة الفضاء الحقيقي المعقدة إلى مشكلة فضاء طيفي بسيطة.

تصميم نموذج توليدي للأبتامرات بناءً على خوارزمية توليدية

على الرغم من العثور على المساحات الجزيئية والبروتينية الأكثر إحكاما وجوهرية، فإن السؤال التالي بعد تحديد هذه المساحات بنجاح هو:كيفية استخدام الذكاء الاصطناعي التوليدي للحصول على الجزيئات المستهدفة بشكل فعال.


عنوان الورقة:MARS: أخذ العينات الجزيئية باستخدام طريقة ماركوف لاكتشاف الأدوية متعددة الأهداف

رابط الورقة:https://iclr.cc/virtual/2021/poster/3352

من أجل العثور على نموذج التوليد الجزيئي الأكثر ملاءمة،قام فريق البروفيسور تشو هاو بتطوير نموذج يسمى MARS، والذي يستخدم أخذ العينات الجزيئية متعددة الأهداف غير الخاضعة للإشراف لإجراء تصميم جزيئي ثنائي الأبعاد. تحتاج عملية التصميم الجزيئي إلى تلبية أهداف تصميم متعددة، وهي مشكلة أخذ العينات في مساحة معقدة عالية الأبعاد. يتم استخدام إطار عمل سلسلة ماركوف مونت كارلو (MCMC) لتحرير الجزيئات، ويمكن إنشاء أي جزيء مستهدف إذا تم استيفاء شروط التوازن الدقيقة.

عنوان الورقة:مطابقة التدفق المتغير المتساوي مع النقل الاحتمالي الهجين
رابط الورقة:https://neurips.cc/virtual/2023/poster/70795

وفي الوقت نفسه، فإن نموذج EquiFM الذي اقترحه فريق البروفيسور تشو هاو هو حاليًا أفضل نموذج توليدي في استكشاف التحيز الاستقرائي الهندسي للبيانات الجزيئية. ويمكنه تحقيق أداء جيد في معايير توليد الجزيئات المتعددة، كما يتم زيادة متوسط سرعة أخذ العينات بمقدار 4.75 مرة.


عنوان الورقة:النمذجة التوليدية الموحدة للجزيئات ثلاثية الأبعاد عبر شبكات التدفق البايزية
رابط الورقة:https://iclr.cc/virtual/2024/oral/19764

بالإضافة إلى ذلك، فإن جوهر نموذج توليد الجزيئات GeoBFN هو تحويل جميع البيانات الجزيئية في مساحة البيانات إلى مساحة متوسط التباين الغاوسي، وبالتالي توليد جزيئات ذات شرعية عالية وقريبة من التوزيع الحقيقي. وفي هذا الصدد، قال البروفيسور تشو هاو:"يعد هذا حاليًا النموذج التوليدي العميق الأكثر ملاءمة للجزيئات وله إمكانات كبيرة للتطوير."

عنوان الورقة:MolCRAFT: تصميم الأدوية القائم على البنية في فضاء المعلمات المستمر
رابط الورقة:https://icml.cc/virtual/2024/poster/34336

بالإضافة إلى هذه الأعمال، نشر فريق البروفيسور تشو هاو أيضًا ورقة بحثية في المؤتمر الدولي للتعلم الآلي (ICML) لاستكشاف إمكانية تطبيق GeoBFN لتصميم الأدوية القائمة على البنية. وأظهرت النتائج أن الجزيئات المولدة باستخدام هذا النموذج تتمتع بتكوينات مستقرة للغاية ونشاط جيد.

بدءًا من بناء الأساس، قم بإنشاء أساس ما قبل التدريب غني بمعرفة البيانات الواسعة

وأخيرًا، شارك البروفيسور تشو هاو مع الجميع كيفية بناء قاعدة تدريب أولية غنية بمعرفة البيانات الواسعة بدءًا من بناء القاعدة.

في الأبحاث الحالية، تعتبر البيانات التجريبية حول توليد الجزيئات الصغيرة نادرة للغاية، ومحاولة استخدام أساليب علوم الكمبيوتر لحل هذه المشكلة هي فكرة مهمة.

عنوان الورقة:تصميم المخدرات ثلاثي الأبعاد Zero-Shot من خلال الرسم والتوليد
رابط الورقة:https://neurips.cc/virtual/2022/poster/54457

وفي هذا الصدد، اقترح فريق البروفيسور تشو هاو فكرة جديدة.وهذا يعني أن عملية توليد الجزيئات من هدف إلى جزيء في خطوة واحدة تتحلل إلى عملية من الهدف إلى الشكل، ثم من الشكل إلى الجزيء.في الواقع، على الرغم من أن كمية البيانات المباشرة من الهدف إلى الجزيء صغيرة، فإن كمية البيانات من الشكل إلى الجزيء كبيرة جدًا. هذه البيانات كافية لجمع أشكال مختلفة من الهدف ومن ثم إنشاء نموذج تدريب مسبق فائق الحجم من الشكل إلى الجزيء. وأخيرًا، يمكننا أن ندرك بسرعة الانتقال من الهدف إلى الجزيء، وحتى تحقيق تصميم جزيء الدواء بدون إشراف أو بإشراف بسيط.

عنوان الورقة:التدريب الجزيئي متعدد الوسائط عبر مزج الوسائط
رابط الورقة:https://iclr.cc/virtual/2024/poster/17824

بالإضافة إلى ذلك، فإن نموذج MolBlend الذي اقترحوه يحقق التدريب المسبق المشترك للجزيئات ثنائية الأبعاد وثلاثية الأبعاد، وهي حالة نموذجية للتوسع من التدريب المسبق للصور والنصوص إلى التدريب المسبق الجزيئي.

عنوان الورقة:Mol-AE: التعلم التمثيلي الجزيئي القائم على المشفر التلقائي باستخدام اختبار الاختصار ثلاثي الأبعاد

رابط الورقة:https://icml.cc/virtual/2024/poster/33340

فضلاً عن ذلك،واقترحوا أيضًا مشفرًا ذاتيًا جزيئيًا Mol-AE يعتمد على الكلوز الهندسي.بفضل أهداف التدريب الجديدة لاختبار 3D Cloze، يمكن للنموذج المقترح أن يتعلم بشكل أفضل العلاقات المكانية للذرات في الهياكل الجزيئية الحقيقية. بالمقارنة مع أكثر طرق النمذجة الجزيئية ثلاثية الأبعاد تقدمًا، يحقق Mol-AE تحسنًا كبيرًا في الأداء.

كما أن البحث في مجال التدريب المسبق الشامل للبروتينات هو أيضًا الاتجاه الذي اختاروه. من المفهوم أن التدريب المسبق العام الحالي للبروتينات ينقسم بشكل أساسي إلى ثلاث فئات: سلسلة DeepMind Alphafold، وسلسلة David Baker's RoseTTAFold، وسلسلة Meta ESM.وقد قام فريق البروفيسور تشو هاو حاليًا بتطوير نموذج ESM-AA.

عنوان الورقة:نموذج لغة البروتين متعدد المقاييس للنمذجة الجزيئية الموحدة
رابط الورقة:https://icml.cc/virtual/2024/poster/35119

ويرجع ذلك إلى أن الترقية من Alphafold2 إلى Alphafold3 قد أدت إلى بناء قاعدة ذرية كاملة، وينطبق الأمر نفسه على سلسلة RoseTTAFold. فقط سلسلة ESM ليس لديها قاعدة ذرية كاملة حتى الآن. ويعمل فريق البروفيسور تشو هاو على هذا المشروع منذ سبتمبر/أيلول من العام الماضي. من خلال الجمع بين المفردات الذرية والأحماض الأمينية، يمكن تحقيق تدريب البروتين على مستويات متعددة. في المهمة المشتركة بين البروتين والجزيئات الصغيرة، يعمل ESM-AA بشكل أفضل من قواعد التدريب المسبق الفردية مثل ESM أو قواعد التدريب المسبق للبروتين الأخرى أو قواعد التدريب المسبق للجزيئات الصغيرة.

كما حظي الحوض المُدرَّب مسبقًا بإشادة واسعة النطاق على تويتر. باعتبارها ممثلاً لقاعدة التسلسل، سوف تتنافس ESM-AA مع RoseTTAFold وAlphafold3، الممثلين لقاعدة البنية. وقال البروفيسور تشو هاو "أعتقد أن هذا هو هدفنا المستقبلي أيضًا".

نبذة عن البروفيسور تشو هاو

تشو هاو، من مواليد عام 1990، حاصل على درجة الدكتوراه، باحث مشارك في جامعة تسينغهوا. اتجاه بحثه هو الذكاء الاصطناعي التوليدي للأنظمة الرمزية المعقدة. وتشمل تطبيقاتها الرئيسية نماذج اللغة واسعة النطاق، وتوليد الجزيئات، وتصميم البروتين، واكتشاف المواد الجديدة، وما إلى ذلك.


كان باحثًا علميًا ونائبًا للمدير في شركة ByteDance، حيث قاد فرق البحث والتطوير لمنصة توليد النصوص الخاصة بشركة ByteDance وتصميم الأدوية بمساعدة الذكاء الاصطناعي. تُستخدم منتجات البحث والتطوير الخاصة بها في أكثر من 20 دولة حول العالم، مع قاعدة مستخدمين تزيد عن مليار شخص. لقد عمل لفترة طويلة كرئيس ميداني لمؤتمرات الذكاء الاصطناعي الكبرى مثل ICML وNeurIPS وICLR وACL، ونشر أكثر من 80 ورقة بحثية في مؤتمرات دولية مهمة حول الذكاء الاصطناعي. فاز بجائزة أطروحة الدكتوراه المتميزة لعام 2019 من جمعية الذكاء الاصطناعي الصينية، وجائزة أفضل ورقة بحثية (1/3350) من مؤتمر ACL 2021، وهو المؤتمر الدولي الأول في مجال معالجة اللغة الطبيعية، وجائزة NLPCC للباحثين الناشئين الشباب لعام 2021 من جمعية الكمبيوتر الصينية.