17日前

LViT：医療画像セグメンテーションにおける言語とVision Transformerの融合

Zihan Li, Yunxiang Li, Qingde Li, Puyang Wang, Dazhou Guo, Le Lu, Dakai Jin, You Zhang, Qingqi Hong

要約

深層学習は、医療画像セグメンテーションをはじめとする多くの分野で広く利用されている。しかし、データのアノテーションコストが非常に高いため、高品質なラベル付きデータを十分に取得することが困難なことから、既存の医療画像セグメンテーションモデルの性能は制限されている。この課題を緩和するために、本研究では新しいテキスト拡張型医療画像セグメンテーションモデルであるLViT（Language meets Vision Transformer）を提案する。LViTモデルでは、医療テキストアノテーションを統合することで、画像データの品質不足を補完する。さらに、テキスト情報は半教師あり学習において、品質の高い擬似ラベルの生成を導く役割を果たす。また、半教師あり学習環境下でのLViTにおける局所的な画像特徴の保持を支援するため、指数的擬似ラベル反復機構（Exponential Pseudo label Iteration, EPI）を提案する。本モデルでは、画像とテキストの統合的な学習を促進するため、LV（Language-Vision）損失を設計し、テキスト情報を直接用いてラベルなし画像の学習を監督する。評価のため、X線画像およびCT画像を含む、3つのマルチモーダル医療画像セグメンテーションデータセット（画像＋テキスト）を構築した。実験結果から、完全教師ありおよび半教師ありの両設定において、提案するLViTが優れたセグメンテーション性能を示した。コードおよびデータセットは、https://github.com/HUANGLIZI/LViT にて公開されている。