HyperAI

نُشر في مجلة Nature، يستخدم فريق البحث الروسي التعلم الآلي للبحث في تريليونات من بيانات مطياف الكتلة واكتشاف التفاعلات الكيميائية غير المعروفة

特色图像

تعتبر مطيافية الكتلة (MS) إحدى التقنيات الأساسية في البحث الكيميائي الحديث. من خلال قياس نسبة الكتلة إلى الشحنة (m/z) للأيونات الجزيئية، يمكن لمطياف الكتلة أن يوفر معلومات أساسية حول الصيغة الجزيئية والبنية وحتى آلية التفاعل للمركب. لقد أدى ظهور مطيافية الكتلة عالية الدقة (HRMS) إلى زيادة الدقة التحليلية إلى مستوى جزء في المليون (ppm)، لتصبح "المعيار الذهبي" في التركيب العضوي، وتحفيز المعادن، وتطوير الأدوية وغيرها من المجالات. ومع ذلك، ومع تزايد أتمتة الأجهزة، فإن كمية بيانات مطيافية الكتلة التي تولدها المختبرات كل يوم قد تجاوزت مستوى التيرابايت (TB)، مما أدى إلى تراكم عدة تيرابايت من المعلومات على أجهزة الكمبيوتر. ولكن حاليا،تعتمد البيانات التجريبية وبيانات MS بشكل كبير على التحليل اليدوي، ويمكن للعوامل البشرية أن تؤثر على نطاق تفسير تحليل البيانات.وهذا يحد بشدة من التجربة.

ولمعالجة هذا التحدي، قدم باحثون من الأكاديمية الروسية للعلوم ومؤسسات أخرى محرك بحث مبتكر يعتمد على التعلم الآلي يسمى MEDUSA Search.من الممكن البحث عن توزيع النظائر الأيونية في قواعد بيانات الطيف الكتلي عالية الدقة متعددة المكونات حتى مستوى تيرابايت.يعتمد النهج على خوارزمية بحث تركز على النظائر، معززة بنموذجين تعاونيين للتعلم الآلي للمساعدة في اكتشاف التفاعلات الكيميائية غير المعروفة. يتيح هذا النهج فحصًا دقيقًا للبيانات الموجودة لتوفير دعم صالح للفرضيات الكيميائية مع تقليل الحاجة إلى إجراء تجارب إضافية. علاوة على ذلك، من خلال توسيع النهج الأساسي، يصبح النموذج قادرًا على توليد فرضيات التفاعل تلقائيًا والكشف عن التحولات الكيميائية الجديدة. في،وقد برزت عملية اقتران الحلقات غير المتجانسة مع الفينيل في تفاعل ميزوروكي-هيك في التجارب، مما سلط الضوء على قدرة المحرك على حل الظواهر الكيميائية المعقدة.

نُشر البحث ذو الصلة، بعنوان "اكتشاف التفاعلات العضوية باستخدام فك تشفير بيانات مطيافية الكتلة على نطاق تيرا، بالاعتماد على التعلم الآلي"، في مجلة Nature Communications.

أبرز ما جاء في البحث
* استخراج التفاعلات غير المعروفة: بدلاً من الاعتماد على تجارب جديدة، استخدم البيانات الموجودة لاستخراج التفاعلات الكيميائية غير المعروفة، مما يقلل من تكاليف التجارب واستهلاك الموارد. 

* خوارزمية بحث فعالة: يمكن لخوارزمية بحث توزيع النظائر الفريدة جنبًا إلى جنب مع نموذج التعلم الآلي البحث بدقة عن الأيونات في بيانات مطيافية الكتلة واسعة النطاق وتقليل سوء التقدير.

* توسيع المعرفة الكيميائية: اكتشاف مسارات ومنتجات تفاعل جديدة، مثل عملية اقتران الفينيل غير المتجانسة في تفاعل ميزوروكي-هيك، وتعميق فهم التفاعلات الكيميائية.

عنوان الورقة: 

https://go.hyper.ai/ak7bN

يجمع المشروع المفتوح المصدر "awesome-ai4s" أكثر من مائة تفسير ورقي لـ AI4S ويوفر مجموعات وأدوات ضخمة من البيانات:
https://github.com/hyperai/awesome-ai4s

مجموعة البيانات: أكثر من 20000 صورة مطيافية كتلة، تؤكد وجود أيونات تفاعلية

وبما أن معظم إشارات مطياف الكتلة تفتقر إلى التحليل المهني، فقد قام المختبر بتجميع وتخزين كمية هائلة من البيانات على مدى السنوات القليلة الماضية، وتأتي جميع البيانات المستخدمة في هذه التجربة من هذا. وتغطي بيانات مطيافية الكتلة هذه مجموعة واسعة من دراسات التحول الكيميائي.يتجاوز حجم البيانات الإجمالي 8 تيرابايت، بما في ذلك أكثر من 20 ألف طيف كتلة.يتم تخزين بيانات مطياف الكتلة عالية الدقة ومتعددة المكونات بدقة مختلفة، مما يتيح تأكيد وجود الأيونات المستهدفة في مجموعة واسعة من التطبيقات.

بحث MEDUSA أثناء عملية اكتشاف التفاعل، يتم البحث عن صيغ الأيونات الناتجة في قاعدة بيانات HRMS التي تبلغ مساحتها تيراسكيل بالكامل للعثور على مسارات ومنتجات تفاعل جديدة، ويتم تصور البيانات.

تم تصور مجموعة البيانات باستخدام تقنية تقليل الأبعاد t-SNE. ولإثبات التنوع الكبير في مجموعة البيانات المؤرشفة، أنشأ الباحثون مخططين لـ t-SNE.تم أخذ عينات من الجزيئات التي تم جمعها بشكل عشوائي من قاعدة بيانات PubChem والمركبات المسجلة في مطياف الكتلة.المركبات المسجلة في أطياف الكتلة التحليلية تغطي الفضاء الكيميائي بشكل جيد. تمثل كل نقطة طيفًا، والأطياف الكتلية المتشابهة قريبة من بعضها البعض على الرسم البياني، وقد سجل عمال مختلفون أطيافًا مختلفة تمت مقارنتها مع بعضها البعض. وقد وجدت التجارب أنتنتشر المركبات في أطياف الكتلة على نطاق واسع في الفضاء الكيميائي، وتختلف أطياف الكتلة التي سجلها باحثون مختلفون بشكل كبير.كما هو موضح أدناه.

رسم تضمين الجار العشوائي الموزع t (t-SNE) للهياكل الكيميائية المشفرة ببصمات مورغان
مخططات تضمين الجار العشوائي الموزع t (t-SNE) لبيانات MS المؤرشفة المستخدمة في هذه الدراسة. تمثل كل نقطة طيف كتلة فريدًا. تشير الألوان المختلفة إلى مشغل مطياف الكتلة المسجل (مرمزًا بالحرف)

تم تخزين البيانات المتنوعة الناتجة عن الدراسة على Figshare.يحتوي هذا على أرشيف ZIP الخاص بمطياف الكتلة بحجم 9 جيجابايت،يتم تغطية جميع منتجات الاكتشاف المذكورة، ويتم تضمين بيانات مطيافية الكتلة التفاعلية الإضافية، والتي يمكن استخدامها لاختبار وظيفة محرك البحث. بعض البيانات التي لم تسفر عن أي نتائج من البحث لا يمكن مشاركتها علنًا بسبب السرية أو حقوق الملكية الفكرية.
* figshare هو مستودع بيانات عبر الإنترنت يعتمد على تقنية الحوسبة السحابية، حيث يمكن للباحثين حفظ نتائج أبحاثهم ومشاركتها، بما في ذلك البيانات ومجموعات البيانات والصور ومقاطع الفيديو والملصقات والرموز.

مجموعة بيانات مطياف الكتلة عالي الدقة HRMS:

https://go.hyper.ai/nexNc

هندسة النموذج: اكتشاف التفاعلات الكيميائية غير المعروفة بناءً على عمليات البحث عن توزيع النظائر

MEDUSA Search هو محرك تحليل بيانات مطيافية الكتلة يعتمد على التعلم الآلي ويمكن استخدامه لاكتشاف التفاعلات الكيميائية غير المعروفة من بيانات مطيافية الكتلة الضخمة.

على وجه التحديد، تتكون عملية البحث التي تم تطويرها في MEDUSA Search من 5 خطوات.

أولاً،يأخذ MEDUSA Search كمدخلات الصيغة الجزيئية وشحنة الأيون الذي يتم البحث عنه.يمكن استخلاص هذه الصيغ أو الشحنات من نظام التفاعل باستخدام نهج توليد الفرضيات أو يمكن تعريفها يدويًا (كما هو موضح في الشكل أ أدناه). ثم يقوم محرك البحث بالبحث عن جميع الملفات الطيفية التي تحتوي على قمتي النظائر الأكثر وفرة للأيون المدخل، كما هو موضح في الشكل ب أدناه. يتم تمثيل قمم الأيزوتوبولوج من خلال نسبة الكتلة إلى الشحنة m/z. وتسمى هذه الملفات الطيفية بالمرشحين، وقد أجرى الباحثون أيضًا حسابات عتبة مسافة جيب التمام على الملفات الطيفية، كما هو موضح في الشكل C1 أدناه. بعد ذلك، يتم إخضاع جميع أطياف الكتلة المرشحة لخوارزمية تبحث عن التوزيعات النظيرية ضمن طيف واحد وفقًا لصيغة الإدخال، كما هو موضح في الشكل C2 أدناه.

مخطط انسيابي لمحرك البحث

قبل إجراء البحث، ينبغي على الباحثينإنشاء قائمة بمسارات التفاعل الافتراضية بناءً على المعرفة السابقة لنظام التفاعل(كما هو موضح في الشكل أ). تم تصميم هذا النظام حول الروابط القابلة للكسر وإعادة تركيب الأجزاء المقابلة. من خلال إدخال معلومات حول الصيغة الكيميائية والشحنة، يمكن حساب "نمط النظير" النظري للأيون. ابحث عن القمتين النظيريتين الأكثر وفرة باستخدام الفهرس المقلوب (الشكل ب). تسمى الأطياف الكتلية التي تحتوي على هذه القمم بالمرشحين. بعد البحث عن الطيف الخشن، يتم البحث عن كل طيف مرشح لتوزيع النظائر للأيون المطلوب.هناك 3 خطوات متضمنة:

تقدير عتبة وجود الأيونات الأولية:يتم استخدام مسافة جيب التمام التي تم إرجاعها بواسطة خوارزمية البحث عن توزيع النظائر ضمن الطيف كمقياس للتشابه بين توزيعات النظائر النظرية والمتطابقة. يعتمد التحديد التلقائي لوجود أو غياب أيون في الطيف على أقصى مسافة جيب التمام المقدرة (أي عتبة وجود الأيون). بناءً على نموذج الانحدار للتعلم الآلي (الشكل C1)، يتم تحديد عتبة وجود الأيون باستخدام صيغة الأيون المدخلة.

*  البحث عن توزيع النظائر ضمن الطيف:تطابق خوارزمية البحث عن توزيع النظائر داخل الطيف (الشكل C2) القمم الموجودة في طيف الكتلة المرشح التجريبي مع القمم الموجودة في توزيع النظائر النظري؛ في كل خطوة، يتم حساب مسافة جيب التمام لاختيار الذروة الأكثر تشابهًا. إذا لم يتم العثور على ذروة، يتم استبدالها بذروة ذات شدة تساوي متوسط الضوضاء. إذا كانت مسافة جيب التمام النهائية أقل من عتبة وجود الأيون المقدرة في الخطوة (كما هو موضح في الشكل C1)، فيُعتبر أن الأيون موجود.

تصفية المطابقات الإيجابية الخاطئة:تم استخدام مصنف إضافي للتعلم الآلي (الشكل C3) للكشف عن وجود أيونات إيجابية كاذبة باستخدام المعلومات حول القمم المجاورة. تظهر هذه المشكلة عادةً في البحث عن توزيع يشكل جزءًا من توزيع آخر. يبدأ أحد الأمثلة الأكثر شهرة بـ M + 1، في حين أن M موجود أيضًا.

الاستنتاج التجريبي: تسلط تجارب اقتران الفينيل غير المتجانس الضوء على قدرات اكتشاف النموذج

تم البحث عن 520 أيونًا تم إنشاؤها من خلال قاعدة بيانات Terascale HRMS بأكملها بإجمالي وقت حسابي يتراوح بين 3 إلى 4 أيام (8 إلى 11 دقيقة لكل أيون).  تظهر النتائج التجريبية أن برنامج MEDUSA Search يكتشف أنماط توزيع النظائر المتعددة.

يرتبط تكوين منتجات التحويل الحفزي ارتباطًا وثيقًا بآلية التفاعل المقابلة.تم إجراء العديد من تفاعلات Mizoroki-Heck والاقتران المتبادل (مثل Sonogashira وSuzuki وBuchwald-Hartwig وما إلى ذلك) مسبقًا باستخدام معقدات Pd/NHC مع ربيطات NHC مختلفة وبدائل هالوجين كمكونات محفزة. أثناء دراسة آلية التفاعل من خلال مطيافية ESI-MS لخليط التفاعل، تم العثور على منتجات الاقتران [NHC-H]⁺، [NHC-Ph]⁺، [NHC-O]⁺ و[NHC-N]⁺. وبناء على هذه الملاحظات،تم الكشف عن الأدوار الرئيسية لاقتران R-NHC وانقسام رابطة M-NHC في تطور معقدات M/NHC في ظل ظروف التفاعل الحفزي.يتم وصف تكوين محفزات M/NHC الجزيئية النشطة تحفيزيًا ومحفزات نوع الكوكتيل "الخالية من NHC" من منظور عدد تفاعلات اقتران CC، بما في ذلك تكوين ملح H-NHC واقتران O-NHC.

في تفاعل سونوجاشيرا، تم عزل منتج اقتران إيثينيل-NHC غير معروف سابقًا، وتم وصف مسار تفاعل محتمل. تعتبر منتجات اقتران الإيثينيل-NHC شديدة التفاعل ويمكن أن تخضع لمجموعة متنوعة من التحولات. تم تحليل المشتقات المهدرجة للمنتجات باستخدام الطريقة الموضحة.أظهر طيف ESI-MS لخليط تفاعل Sonogashira وجود منتج [NHC-(CH₂)₂-Ph]⁺.كما هو موضح أدناه. ويُعتقد أن هذه العملية تحدث عن طريق تفاعل الهدرجة الانتقالية.

يسجل محرك بحث MEDUSA أيونات H-NHC وPh-NHC المعروفة، بالإضافة إلى أيون [NHC-ethynyl]⁺ المكتشف حديثًا في خليط تفاعل Sonogashira المحفز بواسطة Pd/NHC. تسمح عملية البحث القائمة على النظائر باكتشاف منتجات إيثيل-NHC غير المعروفة سابقًا

تحت تحفيز مركب البالاديوم/NHC [BIMePh]⁺ [BIMePdI₃]⁻،أظهر تحليل مطياف الكتلة لخليط تفاعل ميزوروكي-هيك بين بارا ميثوكسي يودوبنزين وأكريلات البيوتيل تكوين [BIMe (CH)₂COOBu]⁺.تم تأكيد الصيغة الجزيئية باستخدام مطيافية الكتلة عالية الدقة. تم استخدام التجارب التي تتضمن تكوين [IPrCHC(Ph)COOBu]⁺ للتمييز بين التحفيز المتجانس وغير المتجانس بواسطة الزئبق. من خلال استبعاد تدخل الزئبق في أنواع التفاعل والحفاظ على الظروف الأخرى كما هي في التجربة الأصلية. تم أيضًا تأكيد الصيغة الجزيئية عن طريق مطيافية الكتلة عالية الدقة، وتم التحقق من التركيب الكيميائي عن طريق تجارب MS/MS.

أكدت تقنية ESI-HRMS تكوين أيون [BIMe(CH)₂COOBu]⁺
أكد ESI-HRMS تكوين أيون [IPrCHC(Ph)COOBu]⁺
طيف MS/MS لأيون [IPrCHC(Ph)COOBu]⁺

تم إجراء التجارب باستخدام 5 ربيطات NHC مختلفة. تم اختبار إمكانية اقتران الفينيل-NHC أثناء تحول البالاديوم/NHC تحت تفاعل ميزوروكي-هيك. تم العثور على منتجات فينيل-NHC في جميع الحالات المدروسة، بغض النظر عن الربيطة في المجمعات، وتم تعريف جميع المنتجات بأخطاء ضئيلة. بالنسبة لمخاليط التفاعل المدروسة، مثل (BIMe)PdI₂Py، و(SIMes)PdCl(allyl)، و(PIPr)PdCl(allyl)،بالإضافة إلى فينيل-NHC، تم الكشف أيضًا عن إيثيل-NHC.إن أخطاء m/z لمجمعات (IMes)PdCl(allyl) و (SIPr)PdCl(allyl) منخفضة جدًا، أقل من 0.3 جزء في المليون، في حين أن الأخطاء أقل من 1 جزء في المليون. في جميع تجارب MS، تم ضبط التكوين لمنع حدوث التحولات أثناء تسجيل أطياف الكتلة. تم أيضًا إجراء مراقبة تفاعل ضخ عينة الضغط ESI-MS لعملية اقتران الفينيل-NHC المعنية للتأكد من إمكانية ملاحظة الأيونات في أوضاع متعددة لجمع بيانات التفاعل.

لقد ثبت أن محرك الحساب الاكتشافي التفاعلي القوي هذا القائم على التعلم الآلي قادر على استخدام أيونات ذات تركيبات مختلفة.يمكن إجراء عمليات البحث عن الأيونات على جميع أجهزة MS بدقة كافية لمراقبة التوزيعات النظيرية.إن الجمع بين النظام المتطور وتقنيات حسابية أخرى (على سبيل المثال، خوارزميات التنبؤ بشظايا الأيونات من خلال الصيغة البنيوية أو تسلسل الببتيد، وحاسبات الإضافات المختلفة) يمكن أن يصبح أداة تحليلية قوية للفحص الشامل، وهو أمر ضروري لتسريع الاكتشافات في مختلف المجالات العلمية.

أيضًا،وتحقق هذه الطريقة أيضًا مفهوم البحث "التجريب في الماضي".إنه يستغل القيمة الكاملة للبيانات الموجودة، ويكتشف مسارات تفاعل ومنتجات جديدة، ويوفر موارد البحث، ويقدم أفكارًا وأساليب جديدة للبحث الكيميائي، ويعزز تطوير مجال الكيمياء العضوية. من حيث التطبيقات العملية، فإنه يمكن أن يساعد شركات الأدوية وشركات البحث والتطوير للمواد، وما إلى ذلك في العثور على مسارات تفاعل ومنتجات جديدة بسرعة أكبر، وخفض تكاليف البحث والتطوير، وتحسين كفاءة البحث والتطوير، وتوفير أداة تحليلية قوية للبحث الكيميائي.

التحليل الآلي لبيانات مطياف الكتلة يدخل التطبيق السريري

مع التعمق المستمر في تكنولوجيا مطيافية الكتلة في البحث العلمي والإنتاج الصناعي، بدأت تكنولوجيا الأتمتة في التحرك نحو التطبيق السريري. باعتبارها مكونًا مهمًا لتكنولوجيا التشخيص الدقيق، يمكن لمطياف الكتلة السريري تحقيق الأتمتة الكاملة من جمع العينات ومعالجتها وفصلها إلى التحليل. وفقًا للنسخة السابعة عشر من تقرير صناعة التشخيص المخبري العالمي الذي أصدرته الولايات المتحدة مؤخرًا، فإن حجم سوق صناعة مطيافية الكتلة السريرية العالمية سيبلغ 930 مليون دولار أمريكي في عام 2024.ومن المتوقع أن يصل إلى 1.435 مليار دولار أميركي بحلول عام 2029. من المتوقع أن ينمو سوق مطيافية الكتلة السريرية بمعدل سنوي متوسط قدره 9% من عام 2024 إلى عام 2029، ليصبح أسرع قطاعات السوق نموًا في مجال التشخيص المخبري بعد اختبار الأحماض النووية.
* يشير مصطلح IVD (منتجات التشخيص المختبري) إلى الأجهزة الطبية وكواشف التشخيص المختبري والأدوية.

بالنظر إلى السوق الصينية،لقد دخلت صناعة مطيافية الكتلة السريرية منذ فترة طويلة في المسار السريع للتطور، مع تحقيق تقدم كبير في مطيافية الكتلة متعددة الأوميكس، وأجهزة مطياف الكتلة المنزلية، ومطياف الكتلة الآلي.وفقًا لـ "تقرير أبحاث صناعة مطياف الكتلة السريري لعام 2024"، اعتبارًا من 31 يوليو 2024، باستثناء منتجات مراقبة الجودة ومنتجات المعايرة، تمت الموافقة على ما مجموعه 228 منتجًا محليًا من مطياف الكتلة السريري من قبل NMPA.

من حيث أنواع الكواشف المعتمدة، استمر عدد أجهزة مطيافية الكتلة السريرية المنتجة محليًا والمعتمدة في الصين في النمو خلال السنوات الخمس الماضية، ولم تكن هناك أي علامة على تباطؤ معدل النمو. اعتبارًا من 31 يوليو 2024، تمت الموافقة على 51 كاشفًا لاختبار الفيتامينات، وتمت الموافقة على 46 كاشفًا لمراقبة تركيز الدواء، وتمت الموافقة على 45 كاشفًا للأمراض المزمنة والهرمونات. من عام 2020 إلى عام 2023، سيكون هناك 10 و12 و13 و16 طرازًا على التوالي.

ومن بين الأجهزة المعتمدة، تشكل أجهزة كروماتوغرافيا السائل-مطياف الكتلة (LC-MS) الأغلبية، بإجمالي 33 جهاز LC-MS صيني الصنع معتمد. المجموعة الثانية الأكبر هي أجهزة مطيافية الكتلة باستخدام الليزر بمساعدة المصفوفة المحلية (MALDI-TOF MS)، بإجمالي 25 طرازًا تمت الموافقة على استخدامها في الكشف عن الميكروبات، والكشف عن الأحماض النووية، والكشف عن الببتيد.

* الكروماتوغرافيا السائلة-مطيافية الكتلة هي تقنية كيميائية تحليلية تجمع بين قدرات الفصل الفيزيائية للكروماتوغرافيا السائلة (LC) مع قدرات تحليل الكتلة لمطيافية الكتلة (MS). 

* مطيافية الكتلة باستخدام الليزر بمساعدة المصفوفة وزمن الرحلة (MALDI-TOF MS) هي نوع جديد من مطيافية الكتلة الحيوية التأينية الناعمة التي تم تطويرها في السنوات الأخيرة وتستخدم على نطاق واسع لتحديد عدد كبير من البكتيريا والفطريات.

في الوقت الحاضر، تم تنفيذ التطبيق السريري لـ LC-MS في الصين لفترة قصيرة نسبيًا ولا يزال في مراحله الأولى. لا تزال هناك العديد من النقائص. قد تؤثر العديد من العوامل مثل مصنعي الأجهزة الطبية، ومختبرات الاختبارات الطبية، والموظفين المحترفين والفنيين، وأقسام الإدارة والسياسات على تطبيق تكنولوجيا الكشف عن مطياف الكتلة السريري. ومع ذلك، إذا نظرنا إلى المستقبل، فمن المؤكد أن الجمع بين الأتمتة والذكاء سيكون اتجاهًا مهمًا للتنمية. وسوف يستمر التطبيق السريري لتقنية LC‑MS/MS في التطور، وبينما تعمل على تحسين كفاءة الكشف ودقته، فإنها ستساعد الأطباء بشكل أكبر على تفسير النتائج والمساعدة في اتخاذ القرارات السريرية.

مراجع:
1.https://mp.weixin.qq.com/s/27drrM5lwawHRgRMWvHZRQ
2.https://mp.weixin.qq.com/s/pkd2I573on08syPkqdStOQ