CEM500K – Datensatz mit großskaligen, heterogenen, unbeschrifteten zellulären Elektronenmikroskopie-Bildern für tiefes Lernen
Die automatisierte Segmentierung von zellulären Elektronenmikroskopie-(EM)-Datensätzen bleibt eine Herausforderung. Überwachte Deep-Learning-(DL)-Methoden, die auf Region-of-Interest-(ROI)-Annotationen basieren, erzeugen Modelle, die sich nicht auf unverwandte Datensätze verallgemeinern lassen. Neuere unsupervisierte DL-Algorithmen erfordern hingegen relevante Vortrainingsbilder; die Vortrainingsphase auf den derzeit verfügbaren EM-Datensätzen ist jedoch rechenintensiv und zeigt nur geringen Nutzen für unbekannte biologische Kontexte, da diese Datensätze groß und homogen sind. Um dieses Problem anzugehen, präsentieren wir CEM500K, ein kompaktes 25-GB-Datenset mit 500.000 einzigartigen zellulären EM-Bildern, das aus nahezu 600 dreidimensionalen (3D) und 10.000 zweidimensionalen (2D) Bildern aus über 100 unabhängigen Bildgebungsprojekten kuratiert wurde. Wir zeigen, dass Modelle, die auf CEM500K vortrainiert wurden, biologisch relevante Merkmale lernen, die robust gegenüber sinnvollen Bildaugmentierungen sind. Kritisch evaluieren wir den Transferlernen von diesen vortrainierten Modellen auf sechs öffentlich verfügbare sowie eine neu abgeleitete Benchmark-Segmentierungsaufgabe und berichten jeweils über state-of-the-art-Ergebnisse. Wir stellen das CEM500K-Datenset, die vortrainierten Modelle sowie die Kuratierungspipeline der EM-Community zur Verfügung, um den Aufbau neuer Modelle und deren weitere Erweiterung zu ermöglichen.