بعد Evo 2، أصدر معهد Arc أول نموذج خلية افتراضية STATE، مع بيانات تدريب تتضمن 70 خطًا خلويًا مختلفًا

كما نعلم جميعًا، يتكون جسم الإنسان من أنواع مختلفة من الخلايا. فالخلايا المناعية قادرة على تحفيز استجابات التهابية لمقاومة مسببات الأمراض عند حدوث العدوى؛ والخلايا الجذعية قادرة على التمايز وإنتاج أنواع مختلفة من الأنسجة؛ أما الخلايا السرطانية، فتتكاثر بشكل غير طبيعي عن طريق التهرب من إشارات تنظيم النمو. ورغم اختلاف هذه الخلايا اختلافًا كبيرًا في وظيفتها وشكلها، إلا أنها جميعًا تتشابه تقريبًا في الجينوم.إن تفرد الخلايا لا يأتي من الاختلافات في تسلسل الحمض النووي نفسه، ولكن من كيفية تنظيمها واستخدامها لنفس المعلومات الجينية.
بعبارة أخرى، تأتي خصائص الخلايا من الاختلافات في التعبير الجيني، ونمط التعبير الجيني للخلية لا يحدد فقط نوع الخلية التي تنتمي إليها، بل يحدد أيضًا حالة الخلية التي تكون فيها. لذلك،من خلال مراقبة التغيرات في التعبير الجيني، من الممكن تحديد ما إذا كانت الخلية سليمة، أو ملتهبة، أو سرطانية.وعلى هذا الأساس، من خلال قياس الاستجابات النسخية للخلايا تحت التدخل الكيميائي أو الجيني، يمكن لنماذج الذكاء الاصطناعي أن تتعلم وتتنبأ بمسارات انتقال الخلايا بين الحالات المختلفة، وحتى التنبؤ بتأثيرات التدخلات غير المرئية.
ومن المتوقع أن يؤدي هذا النوع من نموذج "الخلية الافتراضية" إلى تحسين كفاءة تطوير الأدوية بشكل كبير——في سياق أن كل دواء هو تدخل مستهدف، فإنه يمكن أن يساعد العلماء على فحص خيارات العلاج بشكل أكثر دقة، وتوجيه حالة الخلية من المرض إلى الصحة، مع تقليل الآثار الجانبية وتحسين معدلات النجاح السريري من المصدر.
اليوم، أصبح نموذج الخلية الافتراضية واقعًا ملموسًا. فقد تعاون معهد آرك البحثي غير الربحي، الذي أصدر سلسلة نماذج إيفو، مع فرق بحثية من جامعات مثل جامعة كاليفورنيا في بيركلي وجامعة ستانفورد.تم إطلاق نموذج الخلية الافتراضية STATE، والذي يمكنه التنبؤ باستجابة الخلايا الجذعية والخلايا السرطانية والخلايا المناعية للأدوية أو السيتوكينات أو التدخلات الجينية.تغطي بيانات التدريب الخاصة بها بيانات رصدية من حوالي 170 مليون خلية، وبيانات تدخلية من أكثر من 100 مليون خلية، تشمل 70 سلالة خلوية مختلفة، وتدمج بيانات من أطلس الخلايا الافتراضي Arc Virtual Cell Atlas. تُظهر النتائج التجريبية أن State يتفوق بشكل ملحوظ على الطرق السائدة الحالية في التنبؤ بتغيرات النسخ بعد التدخل. في اختبار مجموعة بيانات Tahoe-100M، تحسنت بمقدار 50% في تمييز تأثيرات التدخل، ودقتها في تحديد الجينات ذات التعبير التفاضلي ضعف دقة النماذج الحالية.
حاليًا، أصبح برنامج STATE مفتوح المصدر للاستخدام غير التجاري، وتم نشر النتائج ذات الصلة كنسخة أولية بعنوان "التنبؤ باستجابات الخلايا للاضطرابات عبر سياقات متنوعة باستخدام State".
رابط الورقة:https://go.hyper.ai/1UFMr
عنوان المشروع مفتوح المصدر:https://github.com/ArcInstitute/state
دمج مصدرين للبيانات يغطيان 70 سلالة خلوية
يتكون STATE من وحدتين أساسيتين: انتقال STATE (ST) وتضمين STATE (SE). بناءً على هذا الإطار متعدد المقاييس، يُمكنه دمج نوعين من مصادر البيانات:تم استخدام بيانات المراقبة لـ 167 مليون خلية لتدريب نموذج SE، وتم استخدام بيانات أكثر من 100 مليون خلية تدخلية لتدريب نموذج ST.
يوضح الشكل أدناه تفاصيل مجموعة بيانات تدخل الخلية الواحدة المستخدمة في تدريب نموذج ST. خضعت جميع مجموعات البيانات للفحص للاحتفاظ فقط بقياسات 19,790 جينًا من جينات Ensembl المُرمِّزة للبروتين البشري، وهي مُوَحَّدة بشكل موحد لعمق UMI إجمالي يبلغ 10,000.

في:
* مجموعة بيانات Tahoe-100M:مجموعة بيانات ضخمة من الخلايا الفردية، وهي عبارة عن أطلس للخلايا الفردية على نطاق بيتا يحتوي على 100 مليون ملف تعريف للنسخ الجيني، يقيس تأثيرات 1100 اضطراب جزيئي صغير على كل خلية في 50 خطًا من خلايا السرطان.
تاهو-100M عنوان تنزيل مجموعة البيانات:
* مجموعة بيانات Parse-PBMC:أصدرت شركة التكنولوجيا الحيوية "بارس بيوساينسز" (Parse Biosciences) مجموعة بيانات مفتوحة المصدر لتسلسل الحمض النووي الريبي أحادي الخلية (scRNA-seq)، والتي حللت 10 ملايين خلية من 1152 عينة في تجربة واحدة. تُستخدم هذه البيانات بشكل رئيسي لدراسة خصائص التعبير الجيني لخلايا الدم المحيطية وحيدة النواة (PBMC) البشرية في ظل ظروف مختلفة.
تحليل-PBMC عنوان تنزيل مجموعة البيانات:
تم تدريب نموذج SE على 167 مليون خلية بشرية. يظهر مصدر البيانات في الشكل أدناه. لتجنب تسرب البيانات في معيار تعميم السياق، استخدم الباحثون 20 سلالة خلوية فقط من مجموعة بيانات تاهو في التدريب، واحتفظوا بخمس سلالات خلوية أخرى كمجموعة اختبار محجوزة.

في،أصدر معهد آرك مؤخرًا مجموعة بيانات تعبيرية واسعة النطاق للخلايا البشرية الفردية، scBaseCount، والتي تحتوي على أكثر من 40 مليون خلية بشرية.شملت الدراسة أعضاءً وسلالات خلوية وحالات مرضية متعددة. في هذه الدراسة، وعند معالجة بيانات scBaseCount، فحص الباحثون خلايا تحتوي على ما لا يقل عن 1000 قيمة تعبير غير صفرية و2000 UMI لكل خلية.
STATE، إطار عمل متعدد المقاييس يعتمد على Transformer
يستطيع نموذج STATE التنبؤ باستجابة النسخ الجيني للخلايا بعد الاضطراب، بما في ذلك التغيرات في التعبير الجيني، والجينات ذات التعبير المتباين، وقوة تأثير الاضطراب الكلي. يدمج هذا النموذج مستويات متعددة من المعلومات:
* المستوى الجزيئي:استخدم التضمينات لتمثيل خصائص الجينات الفردية عبر التجارب والأنواع؛
* المستوى الخلوي:استخدم التضمينات لتمثيل الحالة النسخية للخلايا الفردية، إما ملف تعريف التعبير الطبيعي للخلية أو التضمينات التي تم إنشاؤها بواسطة نموذج تضمين الحالة (SE)؛
* مستوى المجموعة:يتعلم نموذج انتقال الحالة (ST) تأثيرات الاضطرابات على مجموعة من الخلايا.
من بينها، يعتمد نموذج ST على بنية Transformer، ويستخدم آلية الانتباه الذاتي لنمذجة عملية تحويل التدخل في مجموعة من الخلايا. يمكن تمثيل كل خلية بواسطة التعبير الجيني الأصلي أو متجه مُدمج. وحدة SE مُدربة مسبقًا على مجموعة متنوعة من مجموعات البيانات غير المتجانسة، ويمكنها تعلم اختلافات التعبير الجيني بين الخلايا، وتوليد متجهات تعبيرية مقاومة للتشويش التقني وحساسة للغاية لاستجابات التدخل. بمساعدة آلية الانتباه الذاتي، يمكن لنموذج ST رصد التباين البيولوجي المعقد بمرونة دون افتراضات توزيع واضحة.
كما هو موضح في الشكل أدناه، باعتباره إطار عمل متعدد المقاييس للتعلم الآلي،يمكن تشغيل STATE على مستويات متعددة: على مستوى الجين، والخلية الفردية، ومستوى تعداد الخلايا.من بينها، يتعلم نموذج ST تأثير الاضطراب من خلال التدريب على مجموعة من الخلايا المضطربة وغير المضطربة، مُجمّعة ضمن متغيرات مشتركة (مثل نوع الاضطراب، وبيئة الخلية، والدفعة). يستطيع نموذج ST معالجة ملفات تعريف التعبير الجيني مباشرةً، أو دمج تمثيلات الخلايا من نموذج SE، الذي يتعلم تمثيلات تضمين غنية بالمعلومات من بيانات رصدية واسعة النطاق.
في الوقت نفسه، يتيح هذا الهيكل متعدد المقاييس لـ ST محاكاة تجارب Perturb-seq بشكل فعال في الحاسوب ودعم مهام التحليل اللاحقة مثل تقدير التعبير، وتحليل التعبير التفاضلي، وتقدير حجم تأثير الاضطراب.

يظهر إطار نموذج ST في الشكل أدناه. مدخلاته عبارة عن مجموعة من الخلايا غير المضطربة وعلامات الاضطراب، ومخرجاته هي الخلايا المضطربة المقابلة. عند تمثيل الخلايا بأنماط التعبير الجيني، يمكن لنموذج ST التنبؤ مباشرةً بالنسخ الجيني على مستوى الخلية الواحدة؛ وعند استخدام تضمين STATE كمدخل، يتنبأ نموذج ST أولاً بتضمين المخرجات، ثم يفك تشفيرها في النسخ الجيني عبر مُدرك متعدد الطبقات (MLP).

الهدف التدريبي لنموذج ST هو تقليل خسارة الفرق المتوسط الأقصى (MMD) بين النسخ الجيني المضطرب المتوقع للخلية والبيانات الملاحظة الحقيقية.على الرغم من أن ST يتعلم تأثير الاضطراب على مستوى توزيع الخلايا، إلا أنه لا يزال يتنبأ بنمط التعبير بعد الاضطراب لكل خلية محددة. تُعد هذه الخاصية أساسية في تحديد بنية توزيع الخلايا في المجموعة المضطربة.
أظهرت التجارب أنه، ضمن حد معين، يمكن أن يؤدي زيادة حجم مجموعة الخلايا إلى تقليل فقدان التحقق بشكل كبير، وهو أفضل بكثير من نمذجة خلية واحدة. بالإضافة إلى ذلك، يؤدي إلغاء آلية الانتباه الذاتي إلى انخفاض في الأداء، كما هو موضح في الشكل د أدناه، مما يوضح بشكل أكبر أهمية آلية الانتباه الذاتي المرنة القائمة على المجموعة في نمذجة تباين الخلايا في استجابة الاضطراب.

نموذج SE هو مكمل لنموذج ST.يهدف إلى تعلم التضمينات الخلوية، والتقاط أنماط التعبير الجيني الخاصة بنوع الخلية بشكل مثالي،كما هو موضح في الشكل (أ) أدناه، يُعدّ التحليل البرمجي مفيدًا بشكل خاص عندما تكون كمية البيانات صغيرة أو الضوضاء التجريبية كبيرة. عند استخدامه مع التحليل البرمجي، يوفر التحليل البرمجي مساحة حالة خلية أكثر سلاسة. يُكتسب هذا التضمين بناءً على عدد كبير من قواعد بيانات الخلية المفردة الرصدية، وهو ما يُعادل استخدام بيانات الخلية المفردة الرصدية الغنية بشكل غير مباشر لتحسين دقة التنبؤ باستجابة الاضطراب، خاصةً عندما تكون بيانات التدخل محدودة.

من حيث البنية، يُعد مُشفِّر SE مُحوِّلاً كثيفًا ثنائي الاتجاه، وهدف التدريب هو التنبؤ بالتعبير الجيني المُعَيَّر لوغاريتميًا. أما مُفكِّك التشفير SE فهو مُحْسِب متعدد الطبقات (MLP) أصغر حجمًا ومصمم خصيصًا، يتنبأ بالتعبير الجيني بناءً على مزيج من تضمينات الخلايا المُكتسبة وتضمينات الجينات المُستهدفة. يُمكّن هذا التصميم غير المُتناظر في البنية النموذج من تعلم حالات الخلايا ذات الأساس البيولوجي والقدرة الجيدة على التعميم.
تتصدر STATE الطريق في التنبؤ بتأثيرات الاضطرابات عبر البيئات الخلوية
قارن الباحثون نموذج STATE بمجموعة متنوعة من النماذج الأساسية، بما في ذلك ثلاثة نماذج للتعلم الآلي: CPA وscVI وscGPT، وقيّموها على مجموعات بيانات كيميائية، ونقل الإشارة، واضطراب الجينات. يغطي إطار التقييم فئات النتائج الأساسية الثلاث لتجارب Perturb-Seq: تعداد التعبير الجيني، وإحصاءات التعبير التفاضلي، والحجم الإجمالي لتأثير الاضطراب.
لتقييم أداء النموذج بشكل شامل في هذه الأبعاد،قام الباحثون بتطوير مجموعة من مؤشرات التقييم، Cell-Eval،كما هو موضح في الشكل (ج) أدناه، تُعدّ هذه المؤشرات مُعبّرة وتفسيرية بيولوجيًا، ويمكنها توفير منظورات تقييمية مُتكاملة. على سبيل المثال، تُساعد درجة تداخل مؤشرات الترابط الديناميكي على ربط النتائج المُتوقعة بمسارات مُحددة وإعطائها أهمية بيولوجية؛ بينما يُمكن لدرجة تمييز الاضطرابات أن تُسجّل بدقة أكبر التغيرات الدقيقة في تأثير الاضطراب، وتعكس التشابه بين النتائج المُتوقعة وتأثير الاضطراب الفعلي.

في التقييم المحدد، لتجارب الاضطرابات، يجب أن يكون النموذج قادرًا على التمييز بفعالية بين آثار الاضطرابات المختلفة. ولتحقيق ذلك، استخدم الباحثون طريقة تقييم درجات تمييز الاضطرابات، وهي طريقة مقتبسة من وو وآخرين عام ٢٠٢٤، تُصنّف آثار الاضطرابات بمقارنة التشابه بين نمط التعبير المتوقع بعد الاضطراب ونتائج الاضطرابات الفعلية. وتُظهر النتائج أنتحسن أداء نموذج STATE على مجموعات بيانات Tahoe وPBMC بمقدار 54% و29% على التوالي.كما هو موضح في الشكل د أدناه.
لتقييم دقة تنبؤات عدد التعبير الجيني بشكل مباشر، قام الباحثون بحساب معامل ارتباط بيرسون بين التغيرات التعبيرية الناتجة عن الاضطرابات الملحوظة وتوقعات النموذج.يتفوق نموذج STATE على النموذج الأساسي بمقدار 63% على مجموعة بيانات Tahoe و 47% على مجموعة بيانات PBMC.كما هو موضح في الشكل E أدناه.
لتقييم القيم الاحتمالية للجينات ذات التعبير التفاضلي (DE) التي تنبأ بها النموذج، قام الباحثون أولًا بحساب الجينات ذات التعبير التفاضلي الحقيقي باستخدام بيانات الاضطراب المرصودة في التجربة، وضبطوا عتبة معدل الاستجابة الفورية (FDR) عند 0.05. ثم قورنت القيم الاحتمالية الناتجة عن تنبؤات النموذج بمستوى الدلالة الحقيقي، ورُسم منحنى الدقة والتذكر (PR).من خلال حساب المساحة تحت منحنى العلاقات العامة (AUPRC)، يمكن إيجاد أن STATE تتفوق باستمرار على جميع نماذج الأساس في جميع مجموعات البيانات.كما هو موضح في الشكل F أدناه.

إن AUPRC (المنطقة تحت منحنى الدقة والتذكر) لنموذج STATE على مجموعة بيانات اضطراب الجينات أعلى بمقدار 184% من تلك الخاصة بالنموذج ذي المرتبة الثانية.وتظهر هذه النتيجة بوضوح شديد في منحنيات العلاقات العامة لكل نموذج على مجموعات بيانات مختلفة، كما هو موضح في الشكل G أدناه.

ومن الجدير بالذكر أيضًا أنتدعم STATE أيضًا التنبؤ بالرصاصة الصفرية.وهذا يعني أنه حتى في بيئة الخلية الجديدة حيث لم يتم رؤية أي بيانات اضطراب أثناء تدريب النموذج، يمكن التنبؤ بتأثير الاضطراب بدقة، كما هو موضح في الشكل أدناه.

وعلاوة على ذلك، لإظهار سيناريوهات التطبيق العملي لـ STATE، قام الباحثون بتقييم قدرته على اكتشاف التعبير التفاضلي الخاص بنوع الخلية، مع التركيز على خمسة خطوط خلوية في مجموعة بيانات Tahoe-100M كما هو موضح في الشكل أ أدناه.

حدد الباحثون ظروف اضطراب ذات خصوصية عالية لنوع الخلية من خلال مقارنة تداخل نتائج تنبؤات STATE مع نموذجي خط الأساس في الجينات ذات التعبير التفاضلي ومعامل ارتباط سبيرمان لتغير الطيات اللوغاريتمية. إذا كان الأداء أفضل من "متوسط الاضطراب" الأساسي، فهذا يعني أن STATE قد تعلّم تأثيرات الاضطراب الخاصة بنوع خلية معين؛ وإذا كان أفضل من "متوسط البيئة"، فهذا يعني أن النموذج قادر على التمييز بين تأثيرات الاضطرابات المختلفة في نفس الخط الخلوي، بدلاً من مجرد التنبؤ بمتوسط مستوى التعبير لكل خط خلوي.
في جميع ظروف الاضطراب،أظهرت STATE باستمرار قدرة أقوى على استعادة الترتيب الحقيقي لتغير طيات السجل للجينات المعبر عنها بشكل مختلف بشكل أكثر دقة.وهو أفضل بشكل ملحوظ من النموذجين الأساسيين لمتوسط البيئة ومتوسط الاضطرابات، كما هو موضح في الشكل ب أعلاه.
باختصار، اقترح فريق البحث أن نموذج STATE هو أول نموذج تعلّم آلي يتفوق على خطوط الأساس البسيطة (مثل نماذج المتوسطات أو النماذج الخطية) في جميع المؤشرات تقريبًا ومجموعات البيانات المتعددة في مهمة تعميم البيئة الخلوية. بالإضافة إلى ذلك، يُمكّن التضمين الناتج عن نموذج تضمين الخلية SE من تحقيق تنبؤ أكثر فعالية بتأثير اضطراب العينة الصفرية في البيئات الخلوية الجديدة.
أصدر معهد آرك، وهو منظمة بحثية غير ربحية، سلسلة من النتائج المهمة
تأسس معهد آرك رسميًا في عام 2021 على يد باتريك كوليسون، المؤسس المشارك والرئيس التنفيذي لشركة الدفع عبر الهاتف المحمول الشهيرة Stripe، وسيلفانا كونرمان، أستاذة مساعدة في الكيمياء الحيوية بجامعة ستانفورد، وباتريك دي هسو، أستاذ مساعد في الهندسة الحيوية في جامعة كاليفورنيا، بيركلي.

في بداية تأسيسها،جمعت شركة آرك 650 مليون دولار من الاستثمارات، منها 500 مليون دولار جاءت من شركة كوليسون.أثارت هذه الخطوة، التي تمثلت في "دفع ملياردير لزوجة عالمٍ مبلغًا من المال مقابل عدم القلق بشأن تمويل الأبحاث"، نقاشًا واسعًا في هذا المجال ذلك العام. ستوفر هذه الأموال تمويلًا لمدة تصل إلى 8 سنوات لخمسة عشر باحثًا أساسيًا وفريقًا من مساعدي الأبحاث. هؤلاء الباحثون غير مقيدين، ويمكنهم إجراء أبحاث حول الأمراض البشرية المعقدة بأي شكل من الأشكال.
سُمّي هذا المعهد البحثي غير الربحي، الذي يُركّز على أحدث الأبحاث والابتكارات في علوم الحياة، تيمنًا بأقواس الجزر. أقواس الجزر هي أرخبيلات تشكّلت نتيجةً للارتفاع عند تقاطع الصفائح. يأمل مؤسس المعهد أن يجمع باحثين من مختلف المؤسسات والتخصصات من خلاله لابتكار شيء جديد. وهذا ما يُحقّقه المعهد بالفعل. منذ تأسيسه، حقّق المعهد سلسلة من الإنجازات الرائدة في مجال علوم الحياة.
في فبراير من هذا العام، أصدر معهد Arc تطبيق Arc Virtual Cell Atlas، والذي قام في البداية بدمج أكثر من 300 مليون بيانات للخلايا.أطلق الأطلس مجموعتي بيانات أساسيتين، أُطلقتا في 25 فبراير 2025: Tahoe-100M، وهي مجموعة بيانات اضطراب جديدة مفتوحة المصدر من تطوير Tahoe، تحتوي على 100 مليون خلية و60,000 تفاعل دوائي خلوي في 50 سلالة من خلايا السرطان؛ وscBaseCount، وهي أول مجموعة بيانات لتسلسل الحمض النووي الريبوزي أحادي الخلية من بيانات عامة. استخدمت Arc برامج الذكاء الاصطناعي لاستخراج ومعالجة أكثر من 200 مليون ملاحظة خلوية تمثل 21 نوعًا من المستودعات العامة، وتوحيدها.
وفي إبريل من نفس العام،تتعاون شركتا 10x Genomics وUltima Genomics مع معهد Arc لتسريع تطوير Arc Virtual Cell Atlasيتم تعزيز مجموعتها من بيانات قياس الخلية الواحدة القابلة للحساب من خلال تقنيات 10x وUltima. بالاستفادة من تقنية Chromium Flex من 10x، يتم توليد بيانات الاضطرابات على نطاق واسع بأقل تكلفة للخلية وأعلى دقة للمساعدة في بناء نماذج الذكاء الاصطناعي البيولوجي؛ باستخدام نظام التسلسل UG 100 من Ultima وكيمياء Solaris لتوليد المزيد من البيانات بتكلفة أقل، وسيتم استخدام UG 100 Solaris Boost (وضع تشغيل جديد عالي الإنتاجية حاليًا في مرحلة الوصول المبكر) لزيادة إنتاج البيانات بشكل أكبر.
بالنظر إلى الوراء، في نوفمبر 2024،قام معهد آرك، بالتعاون مع جامعة ستانفورد وجامعة كاليفورنيا في بيركلي، بتطوير Evo، أول نموذج بيولوجي يتم تدريبه على الحمض النووي على نطاق واسع.يستخدم هذا النظام بنية التعلم العميق لتحليل معلومات ترميز الحمض النووي، ويمكنه التنبؤ والتصميم على مستويات الحمض النووي والحمض النووي الريبوزي والبروتين، مغطيًا النطاق البيولوجي من النيوكليوتيدات إلى الجينومات. تكمن قيمته الأساسية في فك رموز أنماط تطور الحمض النووي. استخدمه فريق البحث لتصميم نظام كريسبر الوظيفي غير المعروف EvoCas9-1 في الطبيعة، والذي نجح بعد اختبار 11 تصميمًا فقط. تسلسله هو 73%، وهو مشابه لنظام Cas9 الشائع الاستخدام، ولكنه نشط للغاية. بالإضافة إلى ذلك، تم تصميم العنصر الجيني المتحرك IS200/IS605 بنجاح. يُعرف هذا النظام بأنه النموذج الأساسي للذكاء الاصطناعي التوليدي في مجال علم الأحياء.
فبراير 2025وبناءً على هذا الأساس، يتعاون معهد Arc مع NVIDIA لتطوير Evo 2، وهو أكبر نموذج للذكاء الاصطناعي البيولوجي حتى الآن. تم تدريب Evo 2 على 9.3 تريليون نيوكليوتيد من أكثر من 100,000 نوع، ويمكنه تحديد أنماط تسلسل الجينات، والتنبؤ بدقة بالطفرات المسببة للأمراض البشرية، وتصميم جينومات جديدة تعادل طول جينومات البكتيريا. من الناحية الفنية، يستخدم أكثر من 2000 وحدة معالجة رسومية H100 على منصة NVIDIA DGX Cloud للتدريب، ويستخدم بنية StripedHyena 2. كمية البيانات المعالجة أعلى بـ 30 مرة من سابقتها Evo 1، ويمكنه تحليل ملايين تسلسلات النيوكليوتيدات في وقت واحد.
بالإضافة إلى ذلك، في يوليو 2024، تعاون مختبر غودارزي التابع لشركة آرك مع مختبر جيلبرت لاكتشاف أن الرنا المرسال (mRNA) يمكنه التحكم بنشاط في تعبيره الذاتي باستخدام "مفتاح الرنا" المكتشف حديثًا. في يونيو 2024، اكتشف مختبر هسو التابع لشركة آرك أول إنزيم إعادة تركيب طبيعي موجه بالرنا، والذي يمكنه برمجة إدخال أو استئصال أو عكس أي تسلسلين من الحمض النووي الريبوزي (DNA) محل الاهتمام. هذا هو أول إنزيم إعادة تركيب للحمض النووي الريبوزي (DNA) يستخدم الرنا غير المشفر لاستهداف تسلسل محدد وفحص جزيئات الحمض النووي الريبوزي منقوص الأكسجين (DNA) المتبرع. ولأن هذا الرنا الجسري قابل للبرمجة، فإنه يسمح للمستخدمين بتحديد أي تسلسل جينومي مستهدف مرغوب وأي جزيء من الحمض النووي الريبوزي منقوص الأكسجين (DNA) المتبرع به.
مراجع:
1.https://arcinstitute.org/news
2.https://mp.weixin.qq.com/s/THQTl2HI0mAXXwyykkQI5w