HyperAI

المشاركة الأكاديمية | لا تخف من نقص البيانات! تشو زيي، زميل ما بعد الدكتوراه في جامعة شنغهاي جياو تونغ، يشرح طريقة التعلم بالعينة الصغيرة FSFP لنموذج لغة البروتين

特色图像

يمكن لنماذج لغة البروتين المدربة مسبقًا (PLMs) أن تتعلم ميزات توزيع تسلسلات الأحماض الأمينية في ملايين البروتينات بطريقة غير خاضعة للإشراف، مما يُظهر إمكانات كبيرة في الكشف عن العلاقة الضمنية بين تسلسلات البروتين ووظائفها.

في هذا السياق، قامت مجموعة البحث التابعة للأستاذ هونغ ليانغ من كلية العلوم الطبيعية/كلية الفيزياء والفلك/معهد تشانغجيانغ للدراسات المتقدمة/كلية الصيدلة بجامعة شنغهاي جياو تونغ، بالاشتراك مع تان بان، وهو باحث شاب من مختبر الذكاء الاصطناعي في شنغهاي،لقد قمنا بتطوير طريقة تعلم عينة صغيرة لنماذج لغة البروتين، والتي يمكن أن تعمل على تحسين أداء التنبؤ بتأثيرات الطفرة لنماذج لغة البروتين التقليدية باستخدام القليل جدًا من البيانات التجريبية الرطبة.وقد أظهرت إمكانات كبيرة في التطبيقات العملية.

في الحلقة الثالثة من سلسلة البث المباشر "Meet AI4S"، كان من حسن حظ HyperAI أن تدعو المؤلف الأول للورقة البحثية حول نتيجة هذا البحث، تشو زيي، زميل ما بعد الدكتوراه في معهد العلوم الطبيعية بجامعة شنغهاي جياو تونغ والمركز الوطني شنغهاي للرياضيات التطبيقية. في 25 سبتمبر، سيشارك الدكتور تشو زيي مع الجميع طريقة التعلم بالعينة الصغيرة لنموذج لغة البروتين في شكل بث مباشر عبر الإنترنت، ويستكشف أفكارًا جديدة للتطور الموجه بمساعدة الذكاء الاصطناعي.

انقر هنا لجدولة البث المباشر:

https://hdxu.cn/6Bjom

امسح رمز الاستجابة السريعة وأضف "AI4S" للانضمام إلى مجموعة المناقشة↓

تفاصيل الحدث

شارك الموضوع

طريقة التعلم قليلة اللقطات لنموذج لغة البروتين

مقدمة

لقد حقق نموذج لغة البروتين (PLM) تقدمًا كبيرًا في التنبؤ بوظيفة البروتين، ولكنه غالبًا ما يتطلب قدرًا كبيرًا من ضبط البيانات التجريبية لتحقيق دقة عالية. تقدم هذه الورقة طريقة تعلم عينة صغيرة لـ PLM، والتي يمكنها تحسين أداء التنبؤ بتأثير الطفرة لـ PLM بشكل كبير باستخدام العشرات من عينات التدريب فقط.

مراجعة الورقة

قامت شركة HyperAI في السابق بتفسير ومشاركة ورقة بحثية بعنوان "تعزيز كفاءة نماذج لغة البروتين باستخدام الحد الأدنى من بيانات المختبر الرطب من خلال التعلم من خلال عدد قليل من اللقطات" مع الدكتور زيي تشو كمؤلف أول.

انقر هنا لمشاهدة تقرير مفصل: 20 بيانات تجريبية تخلق إنجازًا في مجال بروتين الذكاء الاصطناعي! أصدرت جامعة شنغهاي جياو تونغ ومختبر شنغهاي للذكاء الاصطناعي بشكل مشترك برنامج FSFP لتحسين نماذج التدريب المسبق للبروتين بشكل فعال

تتكون طريقة FSFP من 3 مراحل:

إنشاء مهام مساعدة للتدريب الفوقي، وتدريب مديري دورة حياة المنتج على المهام المساعدة، ونقل مديري دورة حياة المنتج إلى المهمة المستهدفة عبر LTR.

من بينها، يستخدم FSFP خسارة ListMLE لتعلم كيفية تصنيف لياقة الطفرة. في كل تكرار تدريبي، يتم تصحيح تصنيفات PLM المتوقعة لعينات التدريب نحو تصنيفاتها الحقيقية. يتم تطبيق نهج التعلم من أجل الترتيب في وقت واحد على مرحلتي التحسين الداخلي ونقل التعلم في مرحلة التدريب التلوي.

اكتساب مجموعة البيانات

تم اختيار مجموعة بيانات طفرة البروتين (ProteinGym) كمجموعة بيانات مرجعية لهذه الدراسة. تحتوي مجموعة البيانات على ما مجموعه حوالي 1.5 مليون متغير غير متماثل من 87 تجربة تسلسل DMS.

عنوان تنزيل مجموعة بيانات طفرة البروتين ProteinGym:
https://go.hyper.ai/6GvFD

تقييم طريقة FSFP

* من حيث الأداء المتوسط، تتفوق وحدات دورة حياة المنتج (PLM) المدربة بواسطة FSFP باستمرار على خطوط الأساس الأخرى في جميع أحجام بيانات التدريب.

* من حيث تقييم أداء الاستقراء، فإن تقييم ارتباط سبيرمان لـ PLMs المدربة على FSFP متفوق.

* تم تطبيق FSFP بنجاح على التعديل الهندسي لبوليميراز Phi29 DNA، مما أدى إلى تحسين معدل النتائج الإيجابية بشكل كبير.

فوائد الجمهور:

1. فهم المبادئ الأساسية لـ PLM وتطبيقها في هندسة البروتين

2. فهم المبادئ الأساسية لـ PLM وتطبيقها في هندسة البروتين

3. استكشاف أفكار جديدة للتطور الموجه بمساعدة الذكاء الاصطناعي

مجموعة أبحاث هونغ ليانغ في جامعة شنغهاي جياو تونغ

تتبع مجموعة أبحاث هونغ ليانغ في جامعة شنغهاي جياو تونغ إلى معهد العلوم الطبيعية في جامعة شنغهاي جياو تونغ. الاتجاه البحثي لمجموعة البحث هو بشكل أساسي تصميم البروتين والأدوية بالذكاء الاصطناعي، والفيزياء الحيوية الجزيئية، بما في ذلك:

* التعديل الموجه للبروتين، والتطور الموجه للهندسة الإنزيمية، وتصميم الأدوية المساعد استنادًا إلى تكنولوجيا الذكاء الاصطناعي؛

* تشتت النيوترونات، إشعاع السنكروترون، المرافق العلمية الوطنية الكبيرة، فلورسنت الجزيء الواحد، محاكاة الديناميكيات الجزيئية وخوارزميات الذكاء الاصطناعي، وما إلى ذلك، لدراسة ديناميكيات الجزيئات البيولوجية، وتكنولوجيا التجميد الجزيئي البيولوجي ومبادئه.

وقد توصل فريق البحث إلى نتائج مثمرة. وقد نشروا حتى الآن 77 ورقة بحثية، نُشر العديد منها في مجلات Nature.

تعرف على سلسلة AI4S المباشرة

HyperAI (hyper.ai) هو محرك بحث أكبر في الصين في مجال علوم البيانات. يركز على أحدث نتائج الأبحاث العلمية المتعلقة بالذكاء الاصطناعي في العلوم ويتتبع الأوراق الأكاديمية في المجلات العلمية المرموقة مثل Nature وScience في الوقت الفعلي. حتى الآن، تم الانتهاء من تفسير أكثر من 100 ورقة بحثية حول الذكاء الاصطناعي للعلوم.

بالإضافة إلى ذلك، فإننا ندير أيضًا مشروع الذكاء الاصطناعي للعلوم مفتوح المصدر الوحيد في الصين، awesome-ai4s.

عنوان المشروع:

https://github.com/hyperai/awesome-ai4s

من أجل تعزيز نشر AI4S بشكل أكبر، وتقليل حواجز نشر نتائج البحث العلمي للمؤسسات الأكاديمية، ومشاركتها مع مجموعة أوسع من علماء الصناعة وعشاق التكنولوجيا والوحدات الصناعية، خططت HyperAI لعمود الفيديو "Meet AI4S"، بدعوة الباحثين أو الوحدات ذات الصلة الذين يشاركون بعمق في مجال الذكاء الاصطناعي للعلوم لمشاركة نتائج أبحاثهم وطرقهم في شكل مقاطع فيديو، ومناقشة الفرص والتحديات التي تواجه الذكاء الاصطناعي للعلوم في عملية التقدم في البحث العلمي والترويج له وتنفيذه، وذلك لتعزيز نشر الذكاء الاصطناعي للعلوم ونشره.

نرحب بمجموعات البحث والمؤسسات البحثية الفعالة للمشاركة في فعالياتنا المباشرة! امسح رمز الاستجابة السريعة لإضافة "Neural Star" إلى WeChat للحصول على التفاصيل↓