MassSpecGym: معيار مرجعي لاكتشاف وتعرف الجزيئات

اكتشاف وتعرف الجزيئات في العينات البيولوجية والبيئية أمر حاسم لتطوير العلوم الطبية الحيوية والكيميائية. تعد تقنية الطيف الكتلي المتسلسل (MS/MS) التقنية الرائدة في توضيح بنية الجزيئات بكميات كبيرة. ومع ذلك، فإن فك شفرة بنية جزيء من طيف كتلته يعد تحديًا استثنائيًا، حتى عند تنفيذه بواسطة خبراء البشر. نتيجة لذلك، تظل الغالبية العظمى من طيفيات الكتلة المتسلسلة (MS/MS) غير مفسرة، مما يحد من فهمنا للعمليات (البيوكيميائية) الأساسية. رغم التقدم الذي تم إحرازه على مدى عقود في تطبيقات التعلم الآلي لتوقع بنية الجزيئات من طيفيات الكتلة المتسلسلة (MS/MS)، فإن تطوير طرق جديدة يعاني بشدة من نقص المجموعات القياسية وبروتوكولات التقييم. لحل هذه المشكلة، نقترح MassSpecGym -- أول معيار شامل لاكتشاف وتعرف الجزيئات من بيانات MS/MS. يتضمن معيارنا أكبر مجموعة متاحة للجمهور من طيفيات الكتلة المتسلسلة عالية الجودة والمصححة بالعلامات ويحدد ثلاثة تحديات للشرح باستخدام MS/MS: إنشاء بنية جزيء جديدة دون سابق معرفة (de novo molecular structure generation)، استرجاع الجزيء، ومحاكاة الطيف. كما يشمل مؤشرات تقييم جديدة وتقسيم بيانات يتطلب التعميم، مما يجعل المهام المتعلقة بالشرح باستخدام MS/MS قياسية ويتيح الوصول إلى المشكلة للمجتمع الواسع للتعلم الآلي. يمكن الحصول على MassSpecGym بشكل عام من خلال الرابط https://github.com/pluskal-lab/MassSpecGym.