形態的属性を用いた説明可能性を目的とした白血球検出のための大規模マルチドメイン白血病データセット

白血病の早期診断は、毎年数千人の命を救う可能性がある。白血病の予後判定は、白血球(WBC)の形態情報がなければ困難であり、高価な顕微鏡の利用可能性および血液病理専門医の存在に依存している。深層学習に基づく手法は、血液専門医の支援に役立つ可能性がある。しかし、これらのアルゴリズムは大量のラベル付きデータを必要とし、そのようなデータは容易に入手できない。この制約を克服するため、本研究では現実的で汎化性が高く、規模の大きなデータセットを収集した。本研究では、実世界への応用を想定して、高価格帯(HCM)と低価格帯(LCM)の2種類の顕微鏡を用い、3種類の倍率(100倍、40倍、10倍)で、異なるセンサー(HCMにはハイエンドカメラ、LCMにはミドルクラスカメラ、両方の装置にはモバイルカメラ)を用いてデータ収集を行った。ハイエンドカメラはミドルクラスカメラより47倍、HCMはLCMより17倍のコストである。このデータ収集中、高解像度(100倍)でのHCMを用いて、経験豊富な血液病理専門医が2,400枚のPBS白血病患者画像から、14種類のWBCタイプおよびアーティファクトを合計10,300件注釈し、細胞サイズ、核染色質、核形状など55,000件の形態的ラベルを付与した。その後、これらの注釈はHCMの他の2倍率およびLCMの3倍率の画像、さらに各カメラで撮影された画像に転送された。本研究では、LeukemiaAttriデータセットを公開するだけでなく、複数のオブジェクト検出器および無監視ドメイン適応(UDA)戦略のベースラインを提供するとともに、形態情報に基づく属性予測の手法を提示する。本データセットは、論文公開後に公開される予定であり、本分野における研究を促進することを目的としている。