17日前
3次元医療画像解析のためのスウィン変換器の自己教師付き事前学習
Yucheng Tang, Dong Yang, Wenqi Li, Holger Roth, Bennett Landman, Daguang Xu, Vishwesh Nath, Ali Hatamizadeh

要約
ビジョン変換器(Vision Transformers: ViT)は、グローバルおよびローカルな表現を自己教師学習により学習する能力に優れており、その表現は下流のアプリケーションに転移可能であることが示されている。このような成果に着想を得て、本研究では医療画像解析に特化した新たな自己教師学習フレームワークを提案する。具体的には、以下の2点を提案する:(i) ハイエラルキーなエンコーダを備えた新しい3次元変換器ベースのモデル、Swin UNEt TRansformers(Swin UNETR)を導入し、自己教師学習による事前学習を実現;(ii) 人間の解剖学的構造の背後にあるパターンを学習するためのカスタマイズされた代理タスクを設計。本モデルは、複数の身体部位にまたがる5,050枚の公開CT画像を用いて、成功裏に事前学習が実施された。さらに、本手法の有効性は、「Beyond the Cranial Vault(BTCV)セグメンテーションチャレンジ」(13個の腹部臓器を対象としたセグメンテーションタスク)および「Medical Segmentation Decathlon(MSD)」データセットにおける微調整(fine-tuning)によって検証された。その結果、本モデルはMSDおよびBTCVの両方の公開テストリーダーボードにおいて、現時点で最も高い性能(1位)を達成している。コードは以下のURLから入手可能:https://monai.io/research/swin-unetr