HiFuse:医療画像分類のための階層的マルチスケール特徴融合ネットワーク

医用画像分類は、畳み込みニューラルネットワーク(CNN)の発展によって急速に進展している。しかし、畳み込みカーネルの受容 field が固定サイズであるため、医用画像のグローバルな特徴を捉えることは困難である。一方、自己注意機構に基づくTransformerは長距離依存関係をモデル化できるが、計算量が高く、局所的な誘導バイアス(local inductive bias)を欠いている。多くの研究により、画像分類においてグローバル特徴とローカル特徴の両方が重要であることが示されている。しかし、医用画像にはノイズが多く、散在する特徴、クラス内変動、クラス間の類似性が顕著である。本研究では、これらの課題を克服するため、新しい医用画像分類手法として「HiFuse(Hierarchical Multi-scale Feature Fusion Network)」と呼ばれる三本の分岐を持つ階層的マルチスケール特徴融合ネットワーク構造を提案する。この構造は、CNNとTransformerの長所をマルチスケールの階層から効果的に融合しつつ、各モデルの特徴を損なわずに、さまざまな医用画像の分類精度を向上させることを目的としている。本モデルでは、並列に配置されたローカル特徴ブロックとグローバル特徴ブロックの階層構造を設計し、異なる意味的スケールで効率的にローカル特徴とグローバル表現を抽出可能にするとともに、スケールごとの柔軟なモデリングと画像サイズに比例する線形計算量を実現している。さらに、異なる階層レベルで得られた特徴を包括的に活用するため、適応型階層的特徴融合ブロック(HFFブロック)を設計した。HFFブロックは、空間的注意機構、チャネル注意機構、残差逆転MLP(Multi-Layer Perceptron)、およびショートカットを組み合わせ、各分岐における異なるスケール特徴間の意味情報の適応的融合を可能にしている。実験結果によると、本モデルはISIC2018データセットにおいてベースライン比で7.6%、Covid-19データセットでは21.5%、Kvasirデータセットでは10.4%の精度向上を達成した。他の最先端モデルと比較しても、HiFuseモデルは最も優れた性能を示した。本研究の実装コードはオープンソースであり、GitHubから公開されている:https://github.com/huoxiangzuo/HiFuse。