11일 전

CEM500K – 딥러닝을 위한 대규모 이질적 레이블 미기재 세포 전자현미경 이미지 데이터셋

{Kedar Narayan, Ryan W Conrad}
초록

세포 전자현미경(EM) 데이터셋의 자동 분할은 여전히 도전 과제로 남아 있다. 관심 영역(ROI) 주석을 기반으로 하는 감독형 딥러닝(DL) 방법은 관련 없는 데이터셋에 일반화하기 어렵다. 반면, 최신 비감독형 DL 알고리즘은 관련 전훈련 이미지가 필요하지만, 현재 공개된 EM 데이터셋을 기반으로 한 전훈련은 계산 비용이 매우 크며, 새로운 생물학적 맥락에 대해서는 거의 가치가 없다. 왜냐하면 이러한 데이터셋은 크고 동질적이기 때문이다. 이 문제를 해결하기 위해, 우리는 100개 이상의 서로 다른 이미징 프로젝트에서 수집한 약 600개의 3차원(3D) 및 1만 개의 2차원(2D) 이미지에서 선별한 50만 개의 고유한 세포 EM 이미지로 구성된, 크기가 25GB인 유연한 데이터셋인 CEM500K를 제안한다. 우리는 CEM500K로 사전 훈련된 모델이 생물학적으로 의미 있는 특징을 학습하며, 의미 있는 이미지 증강에 대해 강건함을 보임을 입증한다. 특히, 이러한 사전 훈련된 모델을 활용한 전이학습을 여섯 개의 공개된 및 하나의 새로 도출된 기준 분할 과제에 적용하여 각각 최고 성능을 기록했다. 본 연구에서는 CEM500K 데이터셋, 사전 훈련된 모델 및 데이터 정제 파이프라인을 EM 연구 공동체가 모델 개발 및 향후 확장에 활용할 수 있도록 공개한다.

CEM500K – 딥러닝을 위한 대규모 이질적 레이블 미기재 세포 전자현미경 이미지 데이터셋 | 최신 연구 논문 | HyperAI초신경