HyperAI

بتغطية 200 مليون طيف كتلة جزيئية، أصدرت الأكاديمية التشيكية للعلوم نموذج DreaMS لبناء أكبر مجموعة بيانات مطيافية كتلة في العالم GeMS

特色图像

وفقًا للإحصائيات، فإن المساحة الكيميائية الجزيئية الصغيرة الطبيعية التي يستكشفها البشر حاليًا أقل من 10% من إجمالي كميتها، بينما في التجارب الأيضية غير المستهدفة، أصبحت أكثر من 90% من أطياف الكتلة "نفايات بيانات" بسبب الافتقار إلى التعليقات التوضيحية الموثوقة.

في هذه المعركة الحاسمة لفك رموز الجزيئات، يكمن التحدي الأساسي في فهم لغة مطياف الكتلة الترادفية (MS/MS) المعقدة. يُعدّ نظام كروماتوغرافيا السائل-مطياف الكتلة الترادفية (LC-MS/MS) أداةً متطورةً للتحليل الكيميائي الحديث، حيث يُحقق فصلًا فعّالًا للجزيئات من خلال كروماتوغرافيا السائل، ثم يستخدم تقنية التفكك المُستحث بالتصادم لتوليد أطياف كتلة لأيونات الشظايا. تُشبه هذه العملية تفكيك جزيء وتحليل لغز شظاياه.

ومع ذلك، فإن الأدوات التحليلية الحالية تعاني من قيود كبيرة في تجميع الصورة الجزيئية الكاملة:حتى خوارزمية SIRIUS المتقدمة تعتمد بشكل مفرط على مكتبة طيفية محدودة وقواعد اصطناعية.عند مواجهة جزيئات طبيعية مجهولة تُمثل أكثر من 80% إجمالاً، غالبًا ما تُواجه معضلة عدم وجود مكتبة مرجعية. أشارت دراسة نُشرت في مجلة Nature Methods عام 2023 إلى أنه في قاعدة بيانات علم الأيض العالمية، لم تُشَرَّح بنجاح سوى أطياف MS/MS لـ 2%، بينما كانت جزيئات 98% المتبقية أشبه بالشعاب المرجانية في أعماق البحار، مما أعاق بشكل كبير تقدم اكتشاف الأدوية الجديدة وأبحاث تشخيص الأمراض.

لحل هذه المشكلة، استفاد فريق بحثي من معهد الكيمياء العضوية والكيمياء الحيوية التابع للأكاديمية التشيكية للعلوم من الإنجازات التي حققتها سلسلة GPT في مجال اللغة، وهو ملتزم بتطوير مترجم متخصص لأطياف الكتلة. استخرج الباحثون 700 مليون طيف MS/MS من الشبكة الجزيئية الاجتماعية العالمية للمنتجات الطبيعية (GNPS)، ونجحوا في بناء أكبر مجموعة بيانات مطيافية كتلة في التاريخ، GeMS، ودربوا نموذج DreaMS المُحوّل باستخدام 116 مليون مُعامل. يُشبه هذا النموذج تمكين الذكاء الاصطناعي من تعلم "القواعد النحوية المعطوبة" للجزيئات من الصفر. من خلال التنبؤ بالقمم الطيفية المُقنعة وترتيب الاحتفاظ الكروماتوغرافي، نجح في اكتشاف أنماط هيكلية مخفية في أطياف الكتلة غير المُسمّاة.يمكن لمتجه التوصيف المكون من 1024 بُعدًا الذي يولدها أن يعكس بدقة أوجه التشابه البنيوية بين الجزيئات ويظهر قوة كبيرة للإشارة إلى التقلبات في ظل ظروف مطيافية الكتلة المختلفة.

تظهر الأبحاث أنيؤدي برنامج DreaMS المتطور أداءً جيدًا في مجموعة متنوعة من مهام شرح مطياف الكتلة.بما في ذلك التنبؤ بالتشابه الطيفي، والبصمات الجزيئية، والخصائص الكيميائية، ووجود الفلور، والتي تتفوق جميعها على الخوارزميات التقليدية ونماذج التعلم الآلي التي تم تطويرها مؤخرًا.قامت شركة DreaMS بدمج 201 مليون طيف لبناء شبكة جزيئية فائقة تغطي البكتيريا والنباتات ومستقلبات الإنسان،وقد أنشأت "موسوعة جزيئية" للمجتمع الكيميائي يمكن تحديثها في الوقت الحقيقي، مما يوفر موارد قيمة للغاية للبحث والتطبيقات في المجالات ذات الصلة.

وقد تم نشر نتائج البحث ذات الصلة في مجلة Nature Biotechnology المشهورة دوليًا تحت عنوان "التعلم الذاتي للإشراف على التمثيلات الجزيئية من ملايين أطياف الكتلة المترادفة باستخدام DreaMS".

عنوان الورقة: 

https://go.hyper.ai/uNbqL

مزيد من أوراق البحث الرائدة في مجال الذكاء الاصطناعي:

https://go.hyper.ai/UuE1o

تنزيل عنوان مجموعة بيانات مطياف الكتلة الكيميائية GeMS:
https://go.hyper.ai/IC2yw

مجموعة بيانات GeMS: 700 مليون طيف لبناء قاعدة بيانات الطيف الكتلي

تعتمد هذه الدراسة على مجموعة بيانات GeMS التي تم استخراجها بعمق من مستودع MassIVE GNPS، والذي يعد حجمه وجودته رائدين في مجال علم الأيض.

تنزيل عنوان مجموعة بيانات مطياف الكتلة الكيميائية GeMS:
https://go.hyper.ai/IC2yw

كما هو موضح في الشكل أدناه،قام فريق البحث بدمج 250 ألف من بيانات التجارب LC-MS/MS التي تغطي المجالات البيولوجية والبيئية، واستخلص منها ما يقرب من 700 مليون طيف MS/MS، وقسمها إلى ثلاث مجموعات فرعية: GeMS-A، وGeMS-B، وGeMS-C من خلال خوارزميات صارمة لمراقبة الجودة.من بينها، يجمع جهاز GeMS-A الأطياف بشكل رئيسي باستخدام مطياف الكتلة Orbitrap 97%، مُمثلاً أعلى معايير الجودة؛ بينما يدمج جهاز GeMS-C أطياف Orbitrap 52% وQTOF 41%، مما يُوسّع نطاق البيانات بشكل كبير مع ضمان جودة مُعينة. لا يُحافظ هذا التصميم الهرمي على موثوقية بيانات الأجهزة عالية الدقة فحسب، بل يُغطي أيضاً نطاقاً أوسع من مصادر تقنية مطياف الكتلة من خلال مجموعات فرعية أكثر شمولاً، مما يضمن تنوع مجموعات البيانات.

سير العمل لاستخراج مجموعات بيانات GeMS من مستودع GNPS

لحل مشكلة التكرار في البيانات واسعة النطاق، استخدم فريق البحث خوارزمية التجزئة الحساسة للموقع (LSH) لتجميع الأطياف المتشابهة بكفاءة، وولّد تسعة متغيرات عن طريق الحد من عدد الأطياف في المجموعة، مما حسّن كفاءة الحوسبة مع الحفاظ على تمثيل البيانات. وفي النهاية، تم تخزين مجموعة بيانات GeMS بتنسيق HDF5 الثنائي المضغوط.تحويل الطيف الخام إلى موتر عددي ذو بعد ثابت،يُذهل هذا النظام مكتبات الأطياف التقليدية من حيث الحجم - كما هو موضح في الشكل أدناه، فإن حجم بياناته أكبر بكثير من المكتبات الحالية، وبنيته موحدة للغاية، مما يوفر مواد تدريب غير مسبوقة لنماذج التعلم العميق. تجعل خصائص البيانات هذه من GeMS أول مجموعة بيانات قياس طيف الكتلة فائقة الاتساع مناسبة للتعلم الذاتي/غير الخاضع للإشراف. فهو لا يُرسي الأساس للتدريب المسبق لنموذج DreaMS فحسب، بل يوفر أيضًا دعمًا للبيانات بدقة واتساع لتحليل التشابه الطيفي اللاحق، وتوصيف البنية الجزيئية، وغيرها من المهام من خلال التصنيف الطبقي عالي الجودة وتحسين التنسيق، مما يُعزز أبحاث علم الأيض من النموذج التقليدي الذي يعتمد على مكتبات مرجعية محدودة إلى نموذج التحليل الذكي القائم على الأطياف الخام الضخمة.

أطياف MS/MS لمجموعات بيانات GeMS

نموذج DreamMS: نموذج جديد لتحليل مطياف الكتلة يعتمد على المحولات ذاتية الإشراف

استنادًا إلى مجموعة بيانات GeMS، يهدف نموذج DreaMS إلى استخراج التمثيلات الجزيئية من أطياف MS/MS غير الموضحة من خلال التعلم الذاتي الإشراف.يعتمد هذا النموذج على بنية BERT في معالجة اللغة الطبيعية وكان رائدًا في نموذج التعلم الذاتي الإشراف في مجال مطيافية الكتلة الجزيئية الصغيرة.يتضمن تصميمه الأساسي هدفين تدريبيين: الأول هو إخفاء نسبة الكتلة إلى الشحنة (m/z) لـ 30% في الطيف بشكل عشوائي بما يتناسب مع الكثافة، وتدريب النموذج لإعادة بناء القمم المقنعة، مع إدخال "علامات الأيونات الأصلية" لتجميع المعلومات على مستوى الطيف (على غرار تمثيل مستوى الجملة لنماذج اللغة)؛ والآخر هو تعلم كيفية التنبؤ بترتيب الإيلوشن الكروماتوغرافي من خلال أزواج طيفية لنفس تجربة LC-MS/MS، وتعزيز العلاقة الجوهرية بين البنية الجزيئية وقواعد الإيلوشن الذروة.

من حيث بنية النموذج، كما هو موضح في الشكل أدناه،يعتمد DreaMS على مشفر محول مكون من 7 طبقات مزود بآلية انتباه ذاتي مكونة من 8 رؤوس، والتي يمكنها إنشاء متجه تمثيلي مكون من 1024 بُعدًا.للحصول على بيانات عالية الدقة لنسبة الكتلة إلى الشحنة، يستخدم النموذج تقنية المعالجة المسبقة لخصائص فورييه لتحليل قيم الكتلة المستمرة إلى مكونات تردد الجيب/جيب التمام، والتقاط تفاصيل الأجزاء الصحيحة والفاصلة العائمة، وربط تنبؤات تركيب العناصر بشكل أكبر عبر شبكة تغذية أمامية؛ تُعالج قيمة الكثافة بواسطة شبكة سطحية وتُربط بخصائص فورييه كمدخل للمحول. بالإضافة إلى ذلك،يقدم DreaMS صراحةً اختلافات ميزة فورييه لجميع أزواج الذروة في رأس الاهتمام الذاتي (استعارة من بنية Graphormer).قم بإنشاء نموذج مباشر لعلاقة الخسارة المحايدة، وتجنب التصنيفات الإضافية أو الحسابات المعقدة.

هندسة نموذج DreamMS

استخدمت هذه الدراسة تقنية التحقيق الخطي لتقييم التغيرات في التمثيلات المكتسبة أثناء مرحلة التدريب.أولاً، أثناء عملية التدريب، يمكن لنموذج الانحدار اللوجستي القائم على متجه تضمين الأيون الرئيسي أن يتنبأ تدريجيًا ببصمة رابطة MACCS، مما يشير إلى أن النموذج يتعلم معلومات الشظايا الجزيئية في الإشراف الذاتي؛ ثانيًا، يُظهر تحليل رأس الانتباه أن النموذج يعطي الأولوية للقمم المميزة التي تمثل البنية الجزيئية بدلاً من الضوضاء؛ أخيرًا، تُظهر نتائج تجميع مساحة التوصيف أنه حتى الأطياف في ظل ظروف تأين مختلفة يمكن توزيعها خطيًا وفقًا للبنية الجزيئية، مما يؤكد قدرتها على التقاط السمات الهيكلية.

يقوم برنامج DreamMS بإنشاء هياكل جزيئية من خلال التدريب الخاضع للإشراف الذاتي

هجرة المهام المتعددة في نموذج DreamMS: تحليل مطياف الكتلة من تحليل الجزيء الفردي إلى الترابط الأيضي الكامل

باعتباره أول نموذج تحليل مطياف الكتلة القائم على التعلم الذاتي، أظهر نموذج DreaMS مزايا كبيرة في قدرات الانتقال بين المهام. وقد قام فريق البحث بتكييفه ليشمل أربع مهام أساسية:

في تحليل التشابه الطيفي،كما هو موضح في الشكل أدناه، يُحقق النموذج أولًا مطابقة العينة الصفرية من خلال التوصيف الذاتي الإشراف. يتجاوز الارتباط بين تشابه جيب تمام مساحة التضمين وتشابه البنية الجزيئية (مثل معامل تانيموتو) خوارزمية MS2DeepScore الخاضعة للإشراف والتي تعتمد على تدريب البيانات المُعَلَّمة. ونظرًا لقصور العينات الصفرية في حساسيتها للاختلافات الدقيقة في البنية الجزيئية، فقد صُممت ثلاثة أمثلة صعبة، تشمل أطيافًا مرجعية، وعينات موجبة من نفس الجزيء، وعينات سالبة ذات كتلة مماثلة، للمقارنة والضبط الدقيق، بحيث في مهمة الاسترجاع التي يكون فيها انحراف كتلة السلف في حدود 10 أجزاء في المليون،يتفوق برنامج DreaMS الذي تم ضبطه بدقة على 44 مقياسًا للتشابه التقليدي بشكل كبير.علاوة على ذلك، فإن نتائج التضمين أكثر قوة في مواجهة الاختلافات في أجهزة مطياف الكتلة، ويظهر تحليل UMAP أن مساحة تمثيلها متجمعة بشكل صارم وفقًا للصيغ الكيميائية الجزيئية والأنماط البنيوية.

البحث عن نموذج من مجموعة من الجزيئات بفارق 10 جزء في المليون م/ز

في مهمة التنبؤ بالبصمة الجزيئية،كما هو موضح في الشكل أدناه، يتخطى نظام DreaMS العملية المعقدة للطرق التقليدية التي تعتمد على تعيين الصيغة الكيميائية أو إنشاء شجرة الشظايا. يمكن لمرور أمامي واحد التنبؤ مباشرةً ببصمات مورغان من الأطياف الخام. يُضاهي أداء البحث في قاعدة بيانات PubChem أداء نموذج التعلم العميق MIST الذي يعتمد على شرح الصيغة الكيميائية القصوى، ولكنه يتجاهل الخطوات الحسابية المتوسطة المكثفة. للتنبؤ بالخصائص الكيميائية المتعلقة بالأدوية، يُخرج النموذج معاملات قاعدة ليبينسكي الخمسة، وتعقيد بيرتز الجزيئي، ومؤشرات أخرى من خلال الضبط الدقيق.وقد حقق أفضل أداء حالي في كل من سيناريوهات فحص الأدوية على نطاق واسع والبحث عن المؤشرات الحيوية خارج الأرض.

يتفوق DreamMS على النماذج الحالية في التنبؤ بالتعقيد الجزيئي

في المهمة الأكثر تحديًا المتمثلة في اكتشاف الجزيئات المفلورة،كما هو موضح في الشكل أدناه، يحقق DreaMS دقة تبلغ 0.91 واستدعاءً يبلغ 0.57 من خلال نموذج التنبؤ الاحتمالي.وهذا أفضل بكثير من خوارزمية SIRIUS التي تعتمد على البحث عن مجموعة قواعد التجزئة وتتمتع بدقة تبلغ 0.51 فقط.وعلى وجه الخصوص، فإنه يظهر قدرة تعميم قوية في الكشف عن الجزيئات ذات الهياكل الجديدة، مما يوفر أداة رئيسية لتطوير الأدوية المرتبطة بالفلورايد ومراقبة البيئة.

مقارنة بين DreamMS (الأزرق) وSIRIUS (الوردي)

استنادًا إلى كفاءة حسابية عالية (يستغرق حساب تضمين مليون طيف ساعة واحدة فقط على وحدة معالجة الرسومات NVIDIA A100)، كما هو موضح في الشكل أدناه، أنشأ فريق البحث رسمًا بيانيًا لبرنامج DreaMS يحتوي على 201 مليون طيف كتلة، وأنشأ رسمًا بيانيًا لأقرب ثلاثة جيران (3-NN) يضم 34 مليون عقدة من خلال التجميع المحلي الحساس للتجزئة. تشابه حواف 67% أعلى من 0.8، وتشكل 99.7% عقدة مكونًا متصلًا واحدًا. يُظهر تحليل أقصر مسار أنه يمكن ربط أي طيف بمدخل مكتبة معروف في غضون 6 خطوات.

في دراسة أيضية لمرض الصدفية في الذراع،كما هو موضح في الشكل هـ أدناه، تكشف الخريطة عن الارتباط المحتمل بين المرض ومبيد الفطريات بيراكلوستروبين من خلال الارتباط الطيفي. يشمل مسار الارتباط مصادر التعرض البيئي، مثل الأغذية الملوثة والأشجار المعالجة، مما يوفر منظورًا جديدًا قائمًا على البيانات لاستكشاف أسباب الأمراض المعقدة. تُمثل هذه القدرة على شرح مهمة واحدة بدقة لاستنتاج شبكة المكتبة بأكملها حقبة جديدة انتقلت فيها تقنية تحليل مطياف الكتلة من "فك تشفير جزيء واحد" إلى "الترابط الأيضي الكامل".

دريمز سبكتروم

التعاون بين الصناعة والجامعة والبحث العلمي يدفع عجلة الابتكار في تكنولوجيا مطيافية الكتلة

في مجال تحليل مطيافية الكتلة الجزيئية الصغيرة وأبحاث علم الأيض، تستخدم الجامعات والشركات في جميع أنحاء العالم تقنيات مبتكرة لتعزيز الاختراقات في هذا المجال.

في مجال البحث الجامعي، نجحت تقنية تحليل البيانات الضخمة متعددة الجينومات بمساعدة الذكاء الاصطناعي، التي طورها مختبر هو زيبينغ في جامعة تسينغهوا في الصين، إلى جانب أساليب التحليل الأيضي عالية الدقة، في الكشف عن آلية التفاعل الأيضي بين الخلايا العصبية والخلايا السرطانية في البيئة الدقيقة للورم، واكتشفت مسارات تنظيم النواقل العصبية التي يمكن استخدامها كأهداف علاجية. وقد راجعت مجلات نيتشر نتائجها عدة مرات. أما "نظام خبير توصيف كاتا إيه آي" الذي طوره معهد داليان للفيزياء الكيميائية التابع للأكاديمية الصينية للعلوم،من خلال دمج تقنية التعلم العميق في عملية تحليل بيانات مطيافية الكتلة واستخدام قواعد البيانات التي تم إنشاؤها ذاتيًا والخوارزميات الجديدة، فقد حققنا توصيات ذكية من أطياف الكتلة إلى الهياكل الجزيئية.تم تطوير نموذج شبكة عصبية من مرحلتين لبيانات التوصيف المعقدة للمواد الحفازة للطاقة.

منصة الشبكة الجزيئية الاجتماعية العالمية للمنتجات الطبيعية (GNPS) التابعة لجامعة كاليفورنيا، سان دييغو (UCSD)باعتبارها المصدر لمجموعة البيانات الأساسية GeMS لنموذج DreaMS الذي تمت دراسته في هذه المقالة، فإنها تواصل تعزيز تبادل بيانات مطيافية الكتلة وتكاملها عبر المؤسسات.أسست أحدث أبحاثها طريقة تحليل عالية الإنتاجية لتحليل التمثيل الغذائي للميكروبيوم المعوي من خلال مقارنة أنظمة المذيبات الإيثانولية والميثانولية، مما يوفر عملية موحدة لتحليل آليات التفاعل بين المضيف والميكروب.

في ممارسات الابتكار المؤسسي، أطلقت الشركة الأمريكية Agilent جيلًا جديدًا من أنظمة الكشف عن جودة السوائل مثل سلسلة Pro iQ، والتي تتمتع بأداء وحساسية ممتازين وهي مثالية لمراقبة الجزيئات البيولوجية المعقدة واكتشاف الشوائب.يتم توسيع نطاق كتلته إلى 2–3000 م/ز ويتم تعزيز حساسيته بواسطة تقنية Agilent Jet Stream (AJS).يدعم هذا النظام الكشف الروتيني والتتبعي للجزيئات الصغيرة والكبيرة، مما يوفر وسائل تقنية متطورة لمراقبة سلامة الأغذية. بالاعتماد على تقنية الكروماتوغرافيا السائلة ومطياف الكتلة الترادفي، طورت شركة كايلايبو تكنولوجي الصينية بشكل مستقل أكثر من 20 مجموعة مطياف كتلة سريرية، تغطي أكثر من 300 عنصر كشف، من بينها كواشف الكشف عن مستقلبات الكاتيكولامين في الدم والبول، والتي أُدرجت في إجماع خبراء جمعية الغدد الصماء الصينية، وأصبحت المعيار الذهبي في هذا المجال.

بشكل عام، يشهد مجال تحليل مطياف الكتلة الجزيئي الصغير وأبحاث الأيض حاليًا تطورًا تكنولوجيًا تقوده الجامعات والشركات. لا تُعمّق هذه الابتكارات فهم البشر لتعقيد الأنظمة البيولوجية نظريًا فحسب، بل تُظهر أيضًا إمكانات هائلة في التطبيقات العملية، بدءًا من التشخيص المبكر للسرطان وصولًا إلى التنبؤ بأمراض القلب والأوعية الدموية، ومن البحث والتطوير في مجال المواد التحفيزية إلى مراقبة سلامة الأغذية. قد تُعيد هذه الثورة، التي أحدثها تفاعل ابتكار الخوارزميات والعلوم التجريبية، بناء سلسلة كاملة من علم البيئة، من البحث الأساسي إلى التطبيق السريري، مما يُحدث تأثيرات بعيدة المدى في المجالات ذات الصلة.


أخيرًا، أودّ أن أنصح الجميع بحضور فعالية. ستُقيم شركة HyperAI النسخة السابعة من معرض Meet AI Compiler Technology Salon في بكين في 5 يوليو.نحن محظوظون بدعوة العديد من الخبراء الكبار من AMD وجامعة بكين وMuxi Integrated Circuit وما إلى ذلك. نرحب بالجميع للنقر على الرابط أدناه للتسجيل ~

https://www.huodongxing.com/event/1810501012111

المقالات المرجعية:
1.https://mp.weixin.qq.com/s/1QUjLMtj_6ui9T0gbuZtrA
2.https://dicp.cas.cn/xwdt/ttxw/202411/t20241107_7435521.html
3.https://ccms-ucsd.github.io/GNPSDocumentation/
4.https://mp.weixin.qq.com/s/Wgh2w0G76koqc9AY0PBHcg