深層特徴と勾配ブースティング法のアンサンブルを用いた組織病理学画像に基づく乳房腫瘍の分類

乳がんは世界中の女性において最も一般的ながんです。乳がんの早期診断は、治療の効率を著しく向上させることができます。こうした課題に対し、信頼性、精度、コストパフォーマンスの面で優れたコンピュータ支援診断(CAD)システムが広く採用されています。乳がんの診断にはさまざまな画像診断技術が用いられますが、本研究では最も正確な手法の一つである組織病理学画像を採用しています。本研究で提案するCADシステムの特徴抽出部では、深層特徴の転移学習(deep feature transfer learning)を主要なアプローチとしています。本研究では16種類の事前学習済みネットワークを検証しましたが、主な焦点は分類フェーズに置かれています。その中で、残差接続(residual connection)とインセプション構造(inception structure)を併用したInception-ResNet-v2が、乳がん組織病理学画像の特徴抽出能力において、検証されたすべてのCNNモデルの中で最も優れた性能を示しました。分類フェーズでは、CatBoost、XGBoost、LightGBMのアンサンブル手法が最高の平均精度を達成しました。提案手法の評価にはBreakHisデータセットが用いられました。BreakHisデータセットは、4種類の倍率(40倍、100倍、200倍、400倍)で計7,909枚の組織病理学画像(良性:2,480枚、悪性:5,429枚)を含んでいます。本研究で提案する手法(IRv2-CXL)は、40倍、100倍、200倍、400倍の各倍率において、データセットの70%を学習データとして使用した場合、それぞれ96.82%、95.84%、97.01%、96.15%の精度を達成しました。これまでの自動乳がん検出に関する多くの研究は、特徴抽出に注力してきましたが、本研究ではその分類フェーズに重点を置きました。IRv2-CXLは、CatBoost、XGBoost、LightGBMの利点を統合できるソフト投票アンサンブル法を採用しているため、すべての倍率において、既存手法と比較して優れたまたは同等の性能を示しました。