17日前

医療画像セグメンテーションのための完全畳み込みトランスフォーマー

Athanasios Tragakis, Chaitanya Kaul, Roderick Murray-Smith, Dirk Husmeier
医療画像セグメンテーションのための完全畳み込みトランスフォーマー
要約

我々は、さまざまなモダリティの医用画像をセグメンテーション可能な新しいTransformerモデルを提案する。医用画像解析の細粒度特性に起因する課題のため、Transformerを医用画像解析に適応させる取り組みはまだ初期段階にとどまっている。UNetの圧倒的な成功は、セグメンテーションタスクの細粒度特性を適切に捉える能力に起因しており、現行のTransformerベースのモデルはこの能力を備えていない。この欠点を補うため、本研究では「完全畳み込み型Transformer(Fully Convolutional Transformer: FCT)」を提案する。FCTは、畳み込みニューラルネットワーク(CNN)が有効な画像表現を学習するという実証済みの能力を活かしつつ、Transformerが入力データ内の長距離依存関係を効果的に捉える能力とを統合している。FCTは、医用画像分野における初の完全畳み込み型Transformerモデルである。本モデルは2段階の処理を経て入力画像を処理する。まず、入力画像から長距離の意味的依存関係を抽出する学習を行い、次に特徴量から階層的なグローバル属性を捉える学習を行う。FCTはコンパクトでありながら、高い精度とロバスト性を兼ね備えている。実験結果から、事前学習を一切行わずとも、複数の異なるデータモダリティを持つ医用画像セグメンテーションデータセットにおいて、既存のすべてのTransformerアーキテクチャを大きく上回ることが示された。特にACDCデータセットでは1.3%、Synapseデータセットでは4.4%、Spleenデータセットでは1.2%、ISIC 2017データセットでは1.1%のDice係数で優位性を示し、パラメータ数は最大で5分の1程度に抑えることが可能であった。本研究のコード、実行環境およびモデルはGitHubを通じて公開される予定である。