11日前

CEM500K – 深層学習向けの大規模な異種非ラベル付き細胞電子顕微鏡画像データセット

{Kedar Narayan, Ryan W Conrad}
要約

細胞電子顕微鏡(EM)データセットの自動セグメンテーションは、依然として課題である。領域の注釈(ROI)に依存する教師あり深層学習(DL)手法は、関連のないデータセットへの一般化能力に欠けるモデルを生成する。一方、近年の教師なしDLアルゴリズムは、関連する事前学習画像を必要とするが、現時点で入手可能なEMデータセットを用いた事前学習は計算コストが高く、また異なる生物学的文脈においてはほとんど価値を示さない。これは、これらのデータセットが大規模かつ均質であるためである。本研究では、この問題に対処するため、100以上の無関係な画像化プロジェクトから収集された約600の三次元(3D)および10,000の二次元(2D)画像を基に、50万枚の独自な細胞EM画像から構成される25 GBの軽量データセット「CEM500K」を提案する。我々は、CEM500Kで事前学習されたモデルが生物学的に意味のある特徴を学習し、意味のある画像増強に対して頑健であることを示した。特に、これらの事前学習モデルを用いた転移学習を、公開されている6つのベンチマークセグメンテーションタスクおよび新たに構築された1つのタスクにおいて評価し、すべてのタスクで最先端の性能を達成した。本研究では、CEM500Kデータセット、事前学習済みモデル、およびデータ収集パイプラインをEMコミュニティに公開し、モデル構築および今後の拡張に貢献することを目的としている。

CEM500K – 深層学習向けの大規模な異種非ラベル付き細胞電子顕微鏡画像データセット | 最新論文 | HyperAI超神経