CellViT:精密な細胞セグメンテーションおよび分類のためのVision Transformers

ヘマトキシリン・エオシン染色(H&E)組織画像における核の検出およびセグメンテーションは、臨床的に重要なタスクであり、広範な応用分野において不可欠である。しかしながら、染色のばらつきや核のサイズ差、重なり合う境界、核のクラスタリングといった要因により、このタスクは極めて困難である。従来、畳み込みニューラルネットワーク(CNN)がこの分野で広く用いられてきたが、本研究ではTransformerベースのネットワークの可能性に着目し、新たなアプローチを提案する。具体的には、Vision Transformer(ViT)を基盤とする深層学習アーキテクチャ「CellViT」を用いて、デジタル化された組織サンプルにおける細胞核の自動インスタンスセグメンテーションを実現した。CellViTは、19種類の組織タイプに分類された5つの臨床的に重要なクラスに分類された約20万個の核がアノテーションされた、最も挑戦的な核インスタンスセグメンテーションデータセットの一つであるPanNukeデータセット上で学習および評価された。本研究では、最近公開されたSegment Anything Model(SAM)と、1億400万枚の組織画像パッチで事前学習されたViTエンコーダを活用することで、大規模なドメイン内およびドメイン外事前学習Vision Transformerの優位性を実証した。その結果、PanNukeデータセットにおいて、平均パノプティック品質(mean panoptic quality)0.50、F1検出スコア(F1-detection score)0.83という、最先端の核検出およびインスタンスセグメンテーション性能を達成した。コードは公開されており、GitHubにて利用可能である:https://github.com/TIO-IKIM/CellViT