HyperAIHyperAI

Command Palette

Search for a command to run...

LViT:医療画像セグメンテーションにおける言語とVision Transformerの融合

Zihan Li Yunxiang Li Qingde Li Puyang Wang Dazhou Guo Le Lu Dakai Jin You Zhang Qingqi Hong

概要

深層学習は、医療画像セグメンテーションをはじめとする多くの分野で広く利用されている。しかし、データのアノテーションコストが非常に高いため、高品質なラベル付きデータを十分に取得することが困難なことから、既存の医療画像セグメンテーションモデルの性能は制限されている。この課題を緩和するために、本研究では新しいテキスト拡張型医療画像セグメンテーションモデルであるLViT(Language meets Vision Transformer)を提案する。LViTモデルでは、医療テキストアノテーションを統合することで、画像データの品質不足を補完する。さらに、テキスト情報は半教師あり学習において、品質の高い擬似ラベルの生成を導く役割を果たす。また、半教師あり学習環境下でのLViTにおける局所的な画像特徴の保持を支援するため、指数的擬似ラベル反復機構(Exponential Pseudo label Iteration, EPI)を提案する。本モデルでは、画像とテキストの統合的な学習を促進するため、LV(Language-Vision)損失を設計し、テキスト情報を直接用いてラベルなし画像の学習を監督する。評価のため、X線画像およびCT画像を含む、3つのマルチモーダル医療画像セグメンテーションデータセット(画像+テキスト)を構築した。実験結果から、完全教師ありおよび半教師ありの両設定において、提案するLViTが優れたセグメンテーション性能を示した。コードおよびデータセットは、https://github.com/HUANGLIZI/LViT にて公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています