HyperAIHyperAI

منصة تصميم هندسة البروتين فينوس فاكتوري

1. مقدمة البرنامج التعليمي

تم تطوير VenusFactory بواسطة فريق مشترك من جامعة شنغهاي جياو تونغ ومختبر الذكاء الاصطناعي في شنغهاي وجامعة شرق الصين للعلوم والتكنولوجيا في عام 2025. نتائج الورقة ذات الصلة هي "فينوس فاكتوري: منصة موحدة لاسترجاع بيانات هندسة البروتين وضبط نموذج اللغة".

VenusFactory عبارة عن منصة موحدة مصممة خصيصًا لمجتمع هندسة البروتين، وتهدف إلى دمج استرجاع البيانات البيولوجية، ومعايرة المهام الموحدة، والضبط الدقيق المعياري لنماذج لغة البروتين المدربة مسبقًا (PLMs).

وتدعم المنصة تنفيذ سطر الأوامر وواجهة خالية من التعليمات البرمجية تعتمد على Gradio، وتدمج أكثر من 40 مجموعة بيانات متعلقة بالبروتين وأكثر من 40 من برامج إدارة دورة حياة المنتج الشائعة، مما يجعل من السهل على الباحثين في علوم الكمبيوتر وعلم الأحياء استخدامها.

يوفر البرنامج التعليمي 7 وحدات وظيفية:

  • التدريب: تدريب نموذج بدون تعليمات برمجية، ويدعم أكثر من 40 نموذجًا كبيرًا، ويستخدم مجموعات بيانات خاصة لتدريب نماذجك الخاصة.
  • التقييم: أداة سهلة الاستخدام لتقييم الأداء الشامل لنماذج البروتين.
  • التنبؤ: استخدم النموذج المدرب للتنبؤ بوظيفة تسلسلات البروتين الجديدة.
  • VenusAgent: وكيل هندسة البروتين الذي يعمل مع DeepSeek لتمكين حساب البروتين بالذكاء الاصطناعي.
  • أدوات سريعة: إصدار سهل الاستخدام، يدعم التنبؤ بالطفرة بدون عينة (التطور الموجه) والتنبؤ الخاضع للإشراف (التنبؤ بالوظيفة أو الخاصية).
  • أدوات متقدمة: إصدار مخصص متقدم، يدعم التنبؤ بالطفرة بدون عينة (التطور الموجه) والتنبؤ الخاضع للإشراف (التنبؤ بالوظيفة أو الخاصية).
  • التنزيل: الارتباط بسهولة ببيانات البروتين ودعم التنزيلات متعددة الخيوط لقواعد البيانات الرئيسية (RCSB، UniProt...).

موارد الحوسبة المستخدمة في هذا البرنامج التعليمي هي بطاقة RTX 4090 واحدة. النموذج المستخدم في هذا البرنامج التعليمي محفوظ في /openbayes/input/input1  يتم تخزين كافة البيانات في الدليل/openbayes/home/VenusFactory  دليل.

2. خطوات التشغيل

1. ابدأ تشغيل الحاوية

2. دليل

إذا ظهرت رسالة "بوابة غير صالحة"، فهذا يعني أن المشروع قيد التهيئة. يُرجى الانتظار دقيقة أو دقيقتين ثم تحديث الصفحة.

يتضمن دليل المستخدم "اليدوي" الخاص بـ VenusFactory حاليًا أربع وحدات: التدريب، والتقييم، والتنبؤ، والتنزيل.

3. عرض وظيفة محددة

3.1 التدريب

انقر على وحدة "التدريب" في وحدة "تدريب نموذج القطار والتنبؤ"

  • نموذج لغة البروتين المختار
  • اختيار مجموعة البيانات
  • معاينة مجموعة البيانات
  • تكوين طريقة التدريب (راجع دليل المستخدم للحصول على معلومات محددة)
  • تكوين الدفعة (راجع دليل المستخدم للحصول على التفاصيل)

إذا كانت معلمات النموذج المحددة كبيرة، فيرجى استبدال بطاقة الرسومات بأخرى أكبر.

قم بتعيين مسار حفظ نموذج التدريب وانقر فوق "بدء التدريب" لبدء التدريب.

في هذه المرحلة يمكنك رؤية معلمات التدريب ومنحنى الخسارة

إذا كنت ترغب في استخدام مجموعة بياناتك الخاصة، يمكنك استخدام إعدادات مجموعة البيانات المخصصة. ما عليك سوى إدخال مسار مجموعة البيانات (راجع دليل المستخدم لمزيد من التفاصيل).

3.2 التقييم

انقر على وحدة "التقييم" في وحدة "تدريب النموذج والتنبؤ"

  • اختيار مسار النموذج ونموذج لغة البروتين
  • طريقة التقييم وطريقة التجميع (راجع دليل المستخدم للحصول على معلومات محددة)
  • اختيار مجموعة البيانات
  • معاينة مجموعة البيانات
  • أنواع الأسئلة والعلامات (راجع دليل المستخدم للحصول على التفاصيل)
  • تكوين الدفعة (راجع دليل المستخدم للحصول على التفاصيل)

قم بتعيين المسار لحفظ النموذج المدرب وحدد نموذج لغة البروتين.

تكوين الدفعة، انقر فوق "بدء التقييم" لبدء التدريب.

نتائج التقييم هي كما يلي ويمكن تحميلها بتنسيق CSV

إذا كنت ترغب في استخدام مجموعة بياناتك الخاصة، يمكنك استخدام إعدادات مجموعة البيانات المخصصة. ما عليك سوى إدخال مسار مجموعة البيانات (راجع دليل المستخدم لمزيد من التفاصيل).

3.3 التنبؤ

انقر فوق وحدة "التنبؤ" في وحدة "تدريب النموذج والتنبؤ" لأداء تنبؤ تسلسل واحد وتنبؤ الدفعة.

  • تكوين النموذج
  • حدد وحدة التنبؤ (راجع دليل المستخدم للحصول على التفاصيل)

قم بتعيين مسار حفظ نموذج التدريب، وحدد نموذج لغة البروتين، ثم انقر فوق "بدء التنبؤ" لبدء التدريب.

التنبؤ بتسلسل واحد

مثال على تسلسل البروتين: MKTWFGHVLQ

التنبؤ بالدفعة

يمكن تنزيل نتائج التنبؤ بالدفعات وحفظها

3.4 فينوس أجينت

انقر فوق وحدة "VenusAgent"

نظرًا لأن VenusAgent يحتاج إلى استدعاء نموذج DeepSeek الكبير، يوفر هذا البرنامج التعليمي طريقتين للاتصال: إدخال مفتاح API بنفسك أو استخدام نموذج DeepSeek-R1-70B المنتشر على المنصة.

يمكنك اختيار تجارب بطاقات رسوميات مختلفة حسب الوظائف المطلوبة. تعليمات اختيار البطاقة هي كما يلي:

إذا كنت تستخدم بطاقة رسوميات RTX 4090 واحدة، فإن وظيفة VenusAgent لا تدعم استخدام خدمات النماذج الكبيرة التي يتم نشرها محليًا (استخدام مفتاح API الخاص بـ DeepSeek غير محدود).

إذا كنت تستخدم بطاقتي رسوميات RTX 4090، فلن تتمكن من استخدام وظائف أخرى فورًا (بعد 1-2 دقيقة) بعد استخدام وظيفة VenusAgent (لا يوجد قيد عند استخدام مفتاح API الخاص بـ DeepSeek).

إذا كنت تستخدم بطاقتي رسوميات RTX A6000، فإن وظائف VenusAgent تكون غير محدودة.

موارد الحوسبة المستخدمة في هذا البرنامج التعليمي هي بطاقة RTX 4090 واحدة. النموذج المستخدم في هذا البرنامج التعليمي محفوظ في /openbayes/input/input1  يتم تخزين كافة البيانات في الدليل/openbayes/home/VenusFactory  دليل.

3.5 أدوات سريعة

انقر على وحدة "الأدوات السريعة"، والتي تتضمن وظيفتين: التطور الموجه: التنبؤ بالطفرة المدعومة بالذكاء الاصطناعي والتنبؤ بوظيفة البروتين.

التطور الموجه: التنبؤ بالطفرات المدعومة بالذكاء الاصطناعي

التنبؤ بوظيفة البروتين

3.6 أدوات متقدمة

انقر على وحدة "الأدوات المتقدمة"، والتي تتضمن وظيفتين: التطور الموجه: التنبؤ بالطفرة المدعومة بالذكاء الاصطناعي والتنبؤ بوظيفة البروتين.

التطور الموجه: التنبؤ بالطفرات المدعومة بالذكاء الاصطناعي

نموذج قائم على التسلسل
نموذج قائم على الهيكل

التنبؤ بوظيفة البروتين

3.7 تنزيل

انقر فوق وحدة التنزيل لتنزيل بيانات البروتين في هذه الواجهة.

3. المناقشة

🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة تبادل AI4S. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [AI4S] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓

معلومات الاستشهاد

معلومات الاستشهاد لهذا المشروع هي كما يلي:

@inproceedings{tan-etal-2025-venusfactory,
    title = "{V}enus{F}actory: An Integrated System for Protein Engineering with Data Retrieval and Language Model Fine-Tuning",
    author = "Tan, Yang and Liu, Chen and Gao, Jingyuan and Wu, Banghao and Li, Mingchen and Wang, Ruilin and Zhang, Lingrong and Yu, Huiqun and Fan, Guisheng and Hong, Liang and Zhou, Bingxin",
    editor = "Mishra, Pushkar and Muresan, Smaranda and Yu, Tao",
    booktitle = "Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 3: System Demonstrations)",
    month = jul,
    year = "2025",
    address = "Vienna, Austria",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2025.acl-demo.23/",
    doi = "10.18653/v1/2025.acl-demo.23",
    pages = "230--241",
    ISBN = "979-8-89176-253-4",
}