CytoImageNet : Un grand ensemble de données pour l'apprentissage préalable et le transfert d'images biologiques

Motivation : Au cours des dernières années, les essais biologiques basés sur l'image ont progressivement évolué vers des processus à haut débit, suscitant le besoin de méthodes automatisées rapides pour extraire des informations biologiquement pertinentes de centaines de milliers d'images. En nous inspirant du succès d'ImageNet, nous avons constitué CytoImageNet, un jeu de données à grande échelle composé d'images microscopiques librement accessibles et faiblement étiquetées (890 000 images, 894 classes). Le pré-entraînement sur CytoImageNet produit des caractéristiques qui sont compétitives par rapport aux caractéristiques d'ImageNet dans les tâches de classification microscopique en aval. Nous présentons des preuves que les caractéristiques de CytoImageNet capturent des informations non disponibles dans les caractéristiques entraînées sur ImageNet. Le jeu de données est disponible à l'adresse suivante : https://www.kaggle.com/stanleyhua/cytoimagenet.