HyperAIHyperAI

Command Palette

Search for a command to run...

استنادًا إلى مليارات الجينات من مليون نوع، قامت NVIDIA وغيرها ببناء سلسلة نماذج EDEN، محققة قدرات تنبؤية متطورة للغاية (SOTA) للجينوم والبروتين.

Featured Image

يتمثل الهدف الأساسي لعلم الأحياء القابل للبرمجة في تحقيق تصميم عقلاني وتحكم دقيق في الأنظمة الحية، مما يؤدي إلى علاجات ثورية للأمراض المعقدة. ومع ذلك،لطالما كانت هذه العملية مقيدة بالتعقيد المتأصل في الأنظمة البيولوجية.أدت الشبكات التنظيمية متعددة المستويات، والاعتمادات الخفية طويلة التسلسل، والقدرة المتنوعة للكائنات الحية على التكيف مع التغيرات البيئية إلى وضع البحث والتطوير التقليدي القائم على "التجربة والخطأ" في معضلة التخصيص، وانخفاض الإنتاجية، وارتفاع التكلفة.

في نهاية المطاف، فإن بيانات التدريب التي تعتمد عليها النماذج الحاسوبية الحالية، من حيث الحجم والتنوع، لا تكفي لتغطية نطاق التصميم الواسع الذي تطورت فيه الحياة على مدى مليارات السنين من التطور. ولذلك، تواجه هذه النماذج صعوبة في استيعاب مبادئ التصميم الشاملة.عند مواجهة تصميمات علاجية مبتكرة متعددة الوسائط ومتعددة المستويات، فإن القدرة على التعميم تكون ناقصة بشدة.

للتغلب على هذا القيد الأساسي،قامت شركة Basecamp Research وشركة NVIDIA والعديد من المؤسسات الأكاديمية الرائدة بتطوير سلسلة EDEN من النماذج الأساسية للميتاجينوميات بشكل مشترك.من خلال التعلم من كميات هائلة من بيانات التطور الطبيعي التي تتجاوز حدود الأنواع وترتبط بالمعلومات البيئية، تم استخلاص "القواعد" العميقة والمبادئ العالمية للتصميم البيولوجي بشكل منهجي لأول مرة. يحتوي النموذج على 28 مليار مُعامل، وقد حقق نتائج متميزة في العديد من الاختبارات المعيارية. يكمن جوهر هذا الإنجاز في قدرته الفائقة على فهم وتوليد تسلسلات تتجاوز حدود الأنواع، مما يرتقي بالهندسة الحيوية من مرحلة "الفحص" إلى مرحلة جديدة من "البرمجة القابلة للتنبؤ".

للتحقق من قدرات EDEN كمحرك موحد للتصميم الحيوي، أجرى فريق البحث اختبارات منهجية عبر طرائق علاجية متعددة. في مجال العلاج الجيني، يستطيع EDEN، باستخدام تلميح بسيط من 30 قاعدة فقط في الموقع المستهدف، تصميم إنزيمات إعادة التركيب النشطة من الصفر، القادرة على دمج أجزاء كبيرة بدقة في الجينوم البشري. أما فيما يتعلق بتصميم الببتيدات المضادة للميكروبات...أظهرت مكتبة الببتيدات التي تم إنشاؤها بواسطة نفس النموذج نشاطًا يصل إلى 97% ضد مسببات الأمراض المقاومة للأدوية المتعددة.كما أنه يتمتع بفعالية تصل إلى مستوى الميكرومولار. وعلى مستوى النظام البيئي، نجح مشروع EDEN في بناء ميكروبيوم اصطناعي يحتوي على عشرات الآلاف من الجينومات الاصطناعية، ومسارات أيضية دقيقة، وعلاقات معقولة بين الأنواع.


تم نشر نتائج البحث ذات الصلة، بعنوان "تصميم علاجات قابلة للبرمجة بالذكاء الاصطناعي باستخدام عائلة نماذج EDEN الأساسية"، كنسخة أولية على موقع bioRxiv.

أبرز الأبحاث:

* لقد ابتكرت نموذجًا جديدًا لتعلم مبادئ التصميم العالمي مباشرة من التاريخ التطوري، ومن خلال التدريب باستخدام BaseData، وهي قاعدة بيانات ميتاجينومية تغطي التنوع البيولوجي العالمي، حققت فهمًا رائعًا للتسلسل عبر الأنواع وقدرات توليد متميزة.

* تؤكد هذه الدراسة على التنوع القوي لنموذج أساسي واحد في توجيه تصميم العلاج متعدد المقاييس ومتعدد الوسائط، مما يدل على أن نموذجًا واحدًا يمكنه معالجة تحديات التصميم المعقدة بشكل موحد بدءًا من الجزيئات وحتى النظم البيئية.

* يمكن لـ EDEN، باستخدام أدلة الحمض النووي فقط، تصميم إنزيمات إعادة التركيب الوظيفية لمواقع متعددة مرتبطة بالأمراض، وتحقيق معدل نجاح وظيفي يبلغ 63.21 TP3T في الأهداف غير المدربة.

عنوان الورقة:

https://doi.org/10.64898/2026.01.12.699009
تابع حسابنا الرسمي على WeChat وأجب بكلمة "EDEN" في الخلفية للحصول على ملف PDF كامل.

مزيد من أوراق البحث الرائدة في مجال الذكاء الاصطناعي:
https://hyper.ai/papers

مجموعة بيانات BaseData: إعادة تشكيل معايير بيانات الذكاء الاصطناعي البيولوجية باستخدام تسلسلات طويلة عالية الجودة.

تتجاوز مجموعة بيانات BaseData المستخدمة في هذه الدراسة بشكل جذري قيود قواعد البيانات البيولوجية التقليدية. فقواعد البيانات التقليدية تعتمد عادةً على جينومات مرجعية محدودة وتسلسلات قصيرة مجزأة، بينما تهدف BaseData إلى التقاط الإشارات التطورية الكاملة بشكل منهجي، وبناء سلسلة إمداد بيانات جينومية تطورية تغطي التنوع البيولوجي العالمي.


تتجلى القيمة الأساسية لشركة BaseData بشكل رئيسي في حجمها وتكوينها الاستراتيجي. كما هو موضح في الرسم البياني أدناه،يحتوي على 9.7 تريليون علامة نيوكليوتيدية للتدريب، تغطي أكثر من مليون نوع جديد و100 مليار جين جديد.والأهم من ذلك، أن البيانات لا تُجمع عشوائياً، بل تُثرى عمداً بتسلسلات عالية الكثافة المعلوماتية، مثل الميتاجينوميات البيئية، والبكتيريوفاجات، والعناصر الجينية المتنقلة. تسجل هذه البيانات بشكل طبيعي ديناميكيات تطورية رئيسية، مثل تفاعلات البكتيريوفاج مع العائل، ونقل الجينات الأفقي، مما يوفر مادة أساسية للنماذج لتعلم القواعد الوظيفية العامة عبر الأنواع.

مقارنة بين BaseData و OG2، و UMAP بناءً على أصل المجتمع البيولوجي، وقيمة الرقم الهيدروجيني.

من حيث جودة البيانات، يحقق BaseData تحسناً نوعياً، لا سيما في اكتمال سياق التسلسل. فمقارنةً بـ OpenGenome-2 (OG2) واسع الانتشار، يصل متوسط طول أجزاء التسلسل المتجاورة (التداخلات) فيه إلى 18.6 كيلو قاعدة (بينما يبلغ 4.0 كيلو قاعدة في OG2)، ويحتوي كل تجميع على عدد أكبر بكثير من الجينات. يُعد هذا التسلسل المتجاور الأطول أساسياً لفهم النموذج للتنظيم بين الجينات والمسارات الأيضية.

توزيع أطوال القطع في قواعد بيانات BaseData و OG2 في قواعد بيانات الميتاجينوم

لتقييم هذه الميزة النوعية، أجرى فريق البحث تجربة مضبوطة: تدريب سلسلة من النماذج على مجموعات بيانات متساوية الحجم من BaseData وOG2. وقد أكدت النتائج بوضوح "قانون التوسع الواعي بالجودة". ففي ظل نفس العبء الحسابي، شهد النموذج المُدرَّب على BaseData انخفاضًا أسرع في تعقيد الاختبار. ومن أهم النتائج أن النماذج الكبيرة (مثل 7 مليارات مُعامل) تستطيع الاستفادة الكاملة من معلومات التسلسل الطويل في BaseData، متفوقةً في النهاية على النماذج المماثلة المُدرَّبة على OG2.وهذا يوضح بشكل مباشر التأثير الحاسم للسياق بعيد المدى على أداء النموذج.

العلاقة بين اختبار الحيرة وعدد عمليات الفاصلة العائمة لعائلة نماذج EDEN في ظل ظروف معلمات مختلفة.

بناءً على هذا النمطقام فريق البحث بتدريب نموذج EDEN-28B باستخدام 28 مليار معلمة باستخدام قاعدة البيانات الكاملة.لم يحقق هذا النموذج أدنى مستوى من تعقيد الاختبار فحسب، بل إن مسار تحسين أدائه يتطابق تمامًا مع توقعات التوسع المستمدة من النماذج صغيرة النطاق. وفي مراقبة المهام اللاحقة، أظهر مؤشر الثقة الهيكلية للبروتينات التي أنشأها النموذج أثناء التدريب المسبق زيادة مطردة مستمرة مع عملية التدريب، مما يدل على أن البيانات عالية الجودة تُحسّن بشكل مباشر وثابت القدرة على توليد بيانات للعلاج العملي.


علاوة على ذلك، تم الحصول على جميع البيانات من خلال اتفاقيات قانونية موحدة تغطي 28 دولة و208 ترخيصًا، مما أدى إلى إنشاء إطار عمل للتتبع وتقاسم المنافع من المصدر إلى الاستخدام، ووضع المعايير الأخلاقية والحوكمة اللازمة لأبحاث الذكاء الاصطناعي البيولوجي واسعة النطاق.

توزيع pLDDT، وهو إنزيم إعادة تركيب سيرين كبير تم إنتاجه بواسطة نموذج EDEN-28B.

إيدن، محرك تصميم بيولوجي للأغراض العامة

تم تصميم عائلة نماذج EDEN مع اعتبار "قابلية التوسع والشمولية وقابلية التوسع" كمبادئ تصميم أساسية، حيث تتراوح معلمات النموذج من 100 مليون إلى 28 مليار.ومن بينها، يتميز نموذج EDEN-28B، باعتباره النموذج الأساسي للعمل، ببنية واستراتيجية تدريب تتناسب بشكل عميق مع الخصائص الفريدة لبيانات الميتاجينوم.


من حيث هندسة النموذج،تعتمد EDEN بنية Transformer التي تعتمد على وحدة فك التشفير فقط والتي تم التحقق من صحتها بواسطة نماذج لغوية واسعة النطاق، وتحديدًا بناءً على أسلوب تصميم Llama 3.1.يُتيح هذا الخيار قدرة نموذج Transformer الفائقة على نمذجة العلاقات طويلة المدى. يتكون نموذج EDEN-28B من شبكة ذات 48 طبقة، منها 6144 طبقة مخفية، و48 رأس انتباه، ويستخدم دالة التنشيط SwiGLU مع ترميز RoPE الموضعي. يعتمد النموذج على طريقة تجزئة الكلمات بدقة النوكليوتيد الواحد، مع حجم مفردات يبلغ 512، مما يُمكّنه من فهم وتوليد تسلسلات الحمض النووي على مستوى الأحرف الأساسية.


تكمن إحدى أبرز الميزات التقنية في قدرتها على توليد تسلسلات طويلة. على الرغم من أن نافذة سياق النموذج مضبوطة على 8192 تصنيفًا، إلا أنه في التطبيقات العملية،يمكنه توليد وتجميع تسلسلات جينومية متماسكة بشكل مستقر ودقيق لأكثر من 13000 زوج قاعدي مع الحفاظ على الترتيب الصحيح للجينات، وأطر القراءة، وهياكل العناصر التنظيمية.يشير هذا إلى أن النموذج يتعلم أكثر بكثير من مجرد مطابقة الأنماط المحلية؛ إذ يمكنه استنتاج وتطبيق "قواعد" أعمق للتنظيم الجينومي تتجاوز طول النافذة الفيزيائية. وقد أُنجز التدريب بالكامل على 1008 وحدة معالجة رسومية من طراز H100، محققًا بذلك تعلمًا فعالًا من كميات هائلة من البيانات التطورية من خلال الحوسبة الموزعة واسعة النطاق.

بنية مشابهة لـ Llama 3.1 لتدريب EDEN

تعتمد فلسفة التصميم الأساسية لـ EDEN على نموذج "التدريب المسبق والضبط الدقيق". في المرحلة الأولى، يتم تدريب النموذج مسبقًا على نطاق واسع باستخدام قاعدة بيانات تغطي التاريخ التطوري عبر الأنواع، مما يؤدي إلى استيعاب المبادئ العامة للتصميم البيولوجي مثل طي البروتين وتجميع المسارات الأيضية.

وبناءً على هذا الأساس المتين، يمكننا بعد ذلك استهداف مهام تصميم علاجية محددة - مثل تصميم إنزيمات إعادة التركيب التي تستهدف مواقع محددة من الحمض النووي أو توليد ببتيدات مضادة للميكروبات جديدة.باستخدام كمية صغيرة فقط من البيانات عالية الجودة المرتبطة بالمهام لضبطها بدقة، يمكن للنموذج أن يتقن بسرعة "لهجة" المهمة.يُمكّن هذا التصميم نموذج EDEN واحدًا من العمل كـ "محرك تسلسل بيولوجي" عالمي، يتكيف بمرونة مع طرائق علاجية متنوعة ويقودها، بدءًا من إدخال الجينات وتصميم الببتيدات وصولًا إلى هندسة الميكروبيوم، مما يحقق رؤية البيولوجيا القابلة للبرمجة المتمثلة في "نموذج واحد، قدرات متعددة".

قيادة الابتكار العلاجي من المستويات الجزيئية والخلوية إلى مستويات النظام البيئي

وللتحقق بشكل منهجي من عالمية وفعالية نموذج EDEN في تصميم العلاج الفعلي، اختار فريق البحث أربعة اتجاهات رئيسية تختلف اختلافًا كبيرًا في الحجم والنمط والتعقيد البيولوجي للتحقق التجريبي.


في مجال إدخال الجينات القابلة للبرمجة بواسطة الذكاء الاصطناعي (aiPGI)، ركز الفريق على التغلب على العقبة القديمة المتمثلة في "التكامل الدقيق لقطع الحمض النووي الكبيرة".تعتمد تقنية كريسبر التقليدية على إحداث فواصل في سلسلتي الحمض النووي، ولا تستطيع إنزيمات إعادة التركيب السيرين الكبيرة الطبيعية التعرف على تسلسلات الجينوم البشري. وكما هو موضح في الشكل أدناه، يتمثل حل إيدن في بناء نموذج إيدن-إل إس آر، الذي يستطيع فهم علاقة الربط بين "تسلسل الحمض النووي المستهدف ← إنزيم إعادة التركيب المقابل"، وذلك من خلال ضبط دقيق لملايين أزواج مواقع ارتباط إل إس آر الموجودة في النموذج.

مخطط توضيحي لآلية عمل إنزيم سيرين ريكومبيناز الكبير (LSR)

أظهرت النتائج التجريبية أن هذا النهج نجح في توليد مناطق تثبيط فعّالة لعشرة مواقع جينية مختلفة مرتبطة بالأمراض، وأربعة مواقع جينية محتملة تُعتبر "ملاذًا آمنًا"، بمعدل نجاح وظيفي إجمالي قدره 53.61 TP3T. والأهم من ذلك،يمكن لإنزيم التصميم 50% تحقيق إدخال جين CAR المرتبط بالعلاج في الخلايا التائية البشرية الأولية، وقد حققت بعض المتغيرات كفاءة تكامل تصل إلى 40% في خطوط الخلايا.وهذا يدل على إمكانية تطبيقه سريرياً.

استخدام EDEN لتحقيق إدخال الجينات القابل للبرمجة بالذكاء الاصطناعي (aiPGI)

في مجال إنزيمات إعادة التركيب الجسرية الجديدة (BRs)،تم توسيع قدرات نموذج EDEN بشكل أكبر إلى نظام تحرير جيني أكثر قابلية للبرمجة - إعادة التركيب الجسري.كما هو موضح في الشكل أدناه، من أجل تحسين التصميم، قام الفريق ببناء نموذج خاص بـ EDEN-BR عن طريق ضبط النموذج بدقة على ملايين المناطق الجينومية التي تحتوي على BR.

مخطط تخطيطي لنظام إعادة التركيب الجسري

أكدت التجارب البيوكيميائية الرئيسية جدوى عملية التصميم هذه. وكما هو موضح في الشكل أدناه، في الاختبارات الأولية الخالية من الخلايا، تأكد أن اثنين من أصل 49 تسلسلًا مرشحًا تم توليدها بواسطة EDEN-BR يمتلكان نشاطًا واضحًا لإعادة التركيب. هذان البروتينان المصممان اصطناعيًا، والمسميان DF3843 وDF3881، لا تتجاوز درجة تشابههما القصوى مع أي تسلسل BR طبيعي معروف 851 TP3T و65.81 TP3T على التوالي. ويقل تشابههما التسلسلي مع بروتين مرجعي مدروس جيدًا، ISCro4، عن 351 TP3T، ولكنهما متشابهان للغاية في البنية ثلاثية الأبعاد.يثبت هذا أن EDEN لا يقلد التسلسلات فحسب، بل أتقن المنطق الهيكلي الأساسي الذي يحدد وظيفة البروتين وطيه.

نتائج اختبار IVTT لـ BR المُولَّد بواسطة EDEN والنوع البري

في مجال الببتيدات المضادة للميكروبات الجديدة، أثبت فريق البحث قدرة EDEN على تصميم ببتيدات مضادة للميكروبات جديدة. كما هو موضح في الشكل أدناه،من خلال استخدام استراتيجية ضبط دقيقة تتضمن معلومات سياقية جينومية، يكون النموذج قادراً على توليد تسلسلات ببتيدية مضادة للميكروبات جديدة.

استراتيجيات الضبط الدقيق والتوجيه لإنتاج الببتيدات المضادة للميكروبات

أسفر التحقق التجريبي عن نتائج رائدة. كما هو موضح في الشكل أدناه،في مكتبة AMP تتكون من 33 ببتيدًا مولدًا، أظهر ما يصل إلى 971 تسلسل TP3T نشاطًا مضادًا للبكتيريا.من بينها، حققت أفضل المرشحات المصممة تركيزات تثبيطية بالميكرومول ضد البكتيريا سالبة الغرام المقاومة للأدوية المتعددة (مثل أسينيتوباكتر بوماني)، مما يدل على قدرات اختراق قوية للغشاء الخارجي. أظهرت هذه التسلسلات المُولَّدة عمومًا تشابهًا منخفضًا مع قواعد البيانات المعروفة، مما يؤكد أن النموذج يمكنه التغلب على قيود التماثل التقليدية وتحقيق "تصميم جديد كليًا".

نتائج التحقق من صحة اختبار النشاط المضاد للبكتيريا للببتيدات المُنتجة بواسطة EDEN ضد السلالات الممرضة

أخيرًا، وعلى مستوى النظام البيئي الأكثر تعقيدًا، شكّل البحث تحديًا لتصميم "الميكروبيومات الاصطناعية". إذ تُعاني الطرق التقليدية من صعوبة تنسيق التفاعلات الأيضية والتوازن البيئي بين أنواع متعددة. وكما هو موضح في الشكل أدناه، فإنّ نموذج EDEN، بعد ضبطه بدقة باستخدام بيانات ميكروبيوم الجهاز الهضمي،تم بنجاح إنشاء ميتاجينوميات اصطناعية تحتوي على أكثر من 90000 نوع وتمتد على قواعد بيانات ضخمة، وذلك بالاعتماد فقط على الجينات الوظيفية أو الأدلة المتخصصة.

استراتيجيات توليد الميكروبيوم الاصطناعي

تُظهر النتائج المُولَّدة درجة عالية من الواقعية البيئية:تم تصنيف النوع 99% بشكل صحيح ضمن الكائنات الحية المرتبطة بالجهاز الهضمي، وتم الحفاظ على مساراته الأيضية بين الأنواع بشكل كامل.علاوة على ذلك، يمكن للنموذج أن يولد بدقة هياكل البروفاج المدمجة في جينوم المضيف، مما يدل على أنه قد التقط منطق التفاعل المعقد بين المضيف والفيروس.

تحليل UMAP للميكروبيومات الاصطناعية ونظرة عامة على 16 مسارًا أيضيًا مُثرى بشكل ملحوظ

تُظهر هذه التجارب الأربع متعددة المستويات مجتمعةً أن نموذج EDEN، المُدرَّب مسبقًا على بيانات تطورية موحدة، يُمكن أن يُستخدم كمحرك تصميم بيولوجي عام. فهو قادر على توجيه الابتكارات العلاجية بسرعة وموثوقية من المستويات الجزيئية والخلوية والبيئية بأقل قدر من توجيه البيانات الخاصة بكل مهمة، مما يُرسي أساسًا عمليًا متينًا للبيولوجيا القابلة للبرمجة.

الابتكار من خلال دمج الذكاء الاصطناعي وعلم الأحياء التركيبي

في السنوات الأخيرة، تسارع التكامل والابتكار بين الأوساط الأكاديمية والصناعية في مجال البيولوجيا القابلة للبرمجة بشكل كبير، وسلسلة من التطورات الرئيسية تعيد تعريف حدود التصميم الحيوي.


تعمل المؤسسات الأكاديمية الرائدة حول العالم على تحويل الحكمة التطورية إلى نماذج حاسوبية بدقة ونطاق غير مسبوقين. فعلى سبيل المثال، في أوائل عام 2024، أطلق فريق مشترك من ديب مايند، وإيزومورفيك لابز، وعدد من الجامعات، نموذج ألفا فولد 3، القادر على التنبؤ ببنية البروتين وتفاعلاته، وتوليد بروتينات جديدة ذات وظائف محددة في آن واحد. ويُعد هذا النموذج الأول من نوعه الذي يدمج التفاعل المعقد للجزيئات الحيوية في إطار موحد لمحاكاة عالية الدقة.وصفت مجلة نيتشر هذا الاكتشاف بأنه "قفزة نوعية في رسم خرائط العمليات الداخلية للآلات الجزيئية للحياة".

يشهد القطاع تسارعاً في تحويل هذه الإنجازات إلى منصات وعلاجات. ففي مجال تطوير الأدوية المدعوم بالذكاء الاصطناعي، أطلقت شركتا NVIDIA وRecursion Pharmaceuticals مكتبة BioNeMo، وهي مكتبة نماذج ذكاء اصطناعي في الكيمياء الحيوية تهدف إلى تحويل عملية اكتشاف الأدوية من البحث العشوائي عن إبرة في كومة قش إلى اتباع نهج موجه. أما شركة Ginkgo Bioworks المتخصصة في البيولوجيا التركيبية، فتستفيد من منصتها الآلية لتصميم مجتمعات ميكروبية بشكل منهجي لالتقاط الكربون وإنتاج المواد الكيميائية، مما يدفع عجلة هندسة "الأنظمة البيئية التركيبية".


هذه الموجة الجديدة، المدفوعة بالبيانات والخوارزميات، تدفع علم الأحياء من كونه علماً قائماً على الملاحظة والوصف إلى تخصص هندسي قابل للبرمجة والتصحيح والتنبؤ. وهذا لا يعني فقط أننا نستطيع برمجة الحياة بدقة أكبر للتغلب على الأمراض، بل ينبئ أيضاً بقدرتنا على تصميم أنظمة بيولوجية بشكل منهجي لمواجهة التحديات العالمية في مجالات الموارد والبيئة والصحة.

روابط مرجعية:
1.https://nvidianews.nvidia.com/news/nvidia-announces-broad-expansion-of-its-biomedicine-platform
2.https://www.ginkgobioworks.com/2024/01/04/ginkgo-bioworks-and-pfizer-expand-collaboration-to-advance-rna-based-therapeutics/