CEM500K – مجموعة بيانات ضخمة متعددة الأنواع وغير مُسَمَّاة لصور الميكروسكوب الإلكتروني الخلوي لتعلم العميق
يظل التجزئة التلقائية لمجموعات بيانات المجهر الإلكتروني الخلوي (EM) تحديًا كبيرًا. تُظهر الطرق المعتمدة على التعلم العميق المُوجَّه (DL) التي تعتمد على التسميات في مناطق الاهتمام (ROI) نماذج لا تُظهر قدرة على التعميم على مجموعات بيانات غير مرتبطة. أما الخوارزميات الحديثة غير المُوجَّهة للتعلم العميق، فهي تتطلب صورًا تدريبًا مسبقًا ذات صلة، ومع ذلك فإن التدريب المسبق على مجموعات بيانات EM الحالية يُعد مكلفًا من الناحية الحاسوبية، ويُظهر قيمة ضئيلة في السياقات البيولوجية غير المرئية، نظرًا لكون هذه المجموعات كبيرة ومتجانسة. ولحل هذه المشكلة، نقدّم CEM500K، وهي مجموعة بيانات بحجم 25 جيجابايت تحتوي على 500,000 صورة فريدة من نوعها لمجاهر إلكترونية خلوية، تم جمعها بعناية من حوالي 600 صورة ثلاثية الأبعاد (3D) و10,000 صورة ثنائية الأبعاد (2D) من أكثر من 100 مشروع تصوير غير مرتبطة. نُظهر أن النماذج التي تم تدريبها مسبقًا على CEM500K تتعلم ميزات ذات صلة بيولوجيًا وتُظهر مقاومة فعّالة أمام عمليات التحويلات المفيدة للصور. وبشكل حاسم، قمنا بتقييم التعلم الناقل من هذه النماذج المُدرّبة مسبقًا على ستة مهام معيارية للتجزئة متاحة للعامة، بالإضافة إلى مهمة معيارية جديدة، وقمنا بالإبلاغ عن نتائج متقدمة على مستوى الحد الأقصى في كل مهمة. ونُطلق مجموعة بيانات CEM500K، والنماذج المُدرّبة مسبقًا، وPipeline التصنيف (التدقيق) لبناء النماذج والتوسع المستقبلي من قبل مجتمع المجهر الإلكتروني.