9日前

糖尿病網膜症の診断に向けた深層学習アーキテクチャ

{Pablo Hernández-Cámara, Jorge Vila-Tomás, Regino Barranquero-Cardeñosa, Marcelino Martínez-Sober, Kevin N. Dietrich, Alberto Solano}
要約

長年にわたり、畳み込みニューラルネットワーク(CNN)はコンピュータビジョン分野、特に医療分野において中心的な役割を果たしてきた。画像セグメンテーションのような課題に対して、U-NetをはじめとするCNNアーキテクチャが広く用いられてきた。しかし、ViT(Vision Transformer)をはじめとする自己注意機構に基づくネットワークの登場により、従来の畳み込み演算に依存するアプローチのトレンドが変化しつつある。本研究では、医療画像のセマンティックセグメンテーション問題に対して、U-Net、ViT、ConvMixerといった異なるアーキテクチャを比較検討した。各モデルはDRIVEデータセット上で初期から訓練され、それぞれのプライベートなテストセットに対して評価することで、どのモデルがセグメンテーションタスクにおいて優れた性能を発揮するかを検証した。本研究の主な貢献は、最も高い性能を示したモデル(ConvMixer)が、ViTのアプローチ(画像をパッチ単位で処理する)を採用しつつも、U-Netの基盤となる畳み込みブロックを保持している点にある。この組み合わせは、単独で使用されたViT(UNETR/SWIN-Unet:DICE=0.80/0.077)およびU-Net(DICE=0.82)よりも優れた結果(DICE=0.83)を達成するだけでなく、パラメータ数を大幅に削減(297万対1億400万/2700万/3100万)できることを示している。これにより、画像処理問題において必ずしも大規模モデルを用いる必要はなく、最適な構成要素を組み合わせた小型アーキテクチャでも優れた性能が得られることを明らかにした。