HyperAIHyperAI
il y a 11 jours

CEM500K – Un jeu de données à grande échelle, hétérogène et non étiqueté d’images de microscopie électronique cellulaire pour l’apprentissage profond

{Kedar Narayan, Ryan W Conrad}
Résumé

La segmentation automatisée des jeux de données de microscopie électronique (ME) cellulaires reste un défi. Les méthodes supervisées basées sur l’apprentissage profond (DL), qui reposent sur des annotations de régions d’intérêt (ROI), produisent des modèles incapables de généraliser à des jeux de données non apparentés. Les algorithmes récents d’apprentissage profond non supervisés nécessitent toutefois des images de pré-entraînement pertinentes, or l’entraînement préalable sur les jeux de données ME actuellement disponibles est coûteux en ressources computationnelles et présente peu de valeur dans des contextes biologiques inédits, car ces jeux de données sont à la fois volumineux et homogènes. Pour relever ce défi, nous présentons CEM500K, un jeu de données léger de 25 Go comprenant 500 000 images ME cellulaires uniques, soigneusement sélectionnées à partir d’environ 600 images tridimensionnelles (3D) et de 10 000 images bidimensionnelles (2D) issues de plus de 100 projets d’imagerie indépendants. Nous démontrons que les modèles pré-entraînés sur CEM500K apprennent des caractéristiques biologiquement pertinentes et résistantes à des augmentations d’images significatives. De manière cruciale, nous évaluons l’apprentissage par transfert à partir de ces modèles pré-entraînés sur six tâches de segmentation publiques et une nouvelle tâche de benchmark, obtenant des résultats de pointe dans chaque cas. Nous mettons à disposition le jeu de données CEM500K, les modèles pré-entraînés et le pipeline de curation afin de faciliter la construction de modèles et leur extension future par la communauté de la microscopie électronique.

CEM500K – Un jeu de données à grande échelle, hétérogène et non étiqueté d’images de microscopie électronique cellulaire pour l’apprentissage profond | Articles de recherche récents | HyperAI