
摘要
动机:近年来,基于图像的生物检测方法逐渐实现了高通量,这引发了对快速自动化方法的需求,以从数十万张图像中提取生物学上有意义的信息。借鉴ImageNet的成功经验,我们整理了CytoImageNet,这是一个大规模的公开来源且弱标记的显微镜图像数据集(包含890,000张图像,894个类别)。在CytoImageNet上进行预训练可以生成在下游显微镜分类任务中与ImageNet特征具有竞争力的特征。我们提供了证据表明,CytoImageNet特征捕获了ImageNet训练特征所不具备的信息。该数据集可在https://www.kaggle.com/stanleyhua/cytoimagenet 获取。