تعلم التمثيلات الجزيئية ذاتيًا من ملايين طيف الكتلة المتتابع باستخدام DreaMS

يُستخدم التحليل الطيفي الكتلي المتتابع (MS/MS) بشكل أساسي لوصف العينات البيولوجية والبيئية على المستوى الجزيئي، ومع ذلك لا تزال تفسير طيف الكتلة المتتابع من التجارب الميتابولومية غير المستهدفة تحديًا. تعتمد الأساليب الحاسوبية الحالية للتنبؤ من طيف الكتلة على مكتبات طيفية محدودة وعلى الخبرة البشرية المبرمجة بشكل ثابت. في هذا البحث، نقدم شبكة عصبية قائمة على المحولات (transformer) تم تدريبها بطريقة ذاتية مستقلة على ملايين الطيفيات الكتلية المتتابعة غير المشمولة بالتصنيف من مجموعة بياناتنا GNPS Experimental Mass Spectra (GeMS) المستخرجة من مستودع MassIVE GNPS. نظهر أن تدريب النموذج لدينا للتنبؤ بالقمم الطيفية المخفية وترتيب الاحتفاظ الكروماتوغرافي يؤدي إلى ظهور تمثيلات غنية للبنى الجزيئية، والتي أطلقنا عليها اسم التمثيلات العميقة التي تعزز تصنيف طيف الكتلة (DreaMS). يُؤدي تعديل الشبكة العصبية بشكل إضافي إلى تحقيق أداء رائد في مجموعة متنوعة من المهام. نوفر مجموعة البيانات الجديدة والنماذج الخاصة بنا للمجتمع العلمي ونطلق الأطلس DreaMS—شبكة جزيئية تتكون من 201 مليون طيف كتلة متتابع تم بناؤها باستخدام تصنيفات DreaMS.