Command Palette
Search for a command to run...
Yuheng Li Yenho Chen Yuxiang Lai Jike Zhong Vanessa Wildman Xiaofeng Yang

要約
放射線診断における誤診——誤読、注意の盲点、および情報共有の失敗——は、臨床現場において依然として広範に見られる問題である。これらの課題の多くは、局所的な異常の見落とし、全体的な画像文脈の制限、およびレポート表現のばらつきに起因している。特に3D画像診断では、1回のスキャンで数百枚もの断層画像を評価する必要があるため、こうした課題はさらに顕著になる。これを克服するには、正確な局所的病変検出、ボリューム全体レベルでの包括的推論、そして意味的に一貫した自然言語によるレポート作成を可能にするシステムが必要となる。しかし、現存する3D視覚言語モデルは、これら3つの要件を同時に満たすことができず、空間的推論に必要な局所-全体の理解に欠け、また未整理な放射線レポートに見られる表現のばらつきやノイズに対処しきれていない。本研究では、3DCT画像解析を目的としたマルチスケール意味強化型視覚言語事前学習フレームワーク「MedVista3D」を提案する。疾患の同時検出と包括的解釈を実現するため、MedVista3Dは、フルボリューム文脈内における細粒度表現学習を可能にするために、局所的および全体的画像-テキストのアライメントを実施する。レポートの表現ばらつきに対処するため、言語モデルを用いたレポート再構成を適用し、意味を意識したアライメントを実現するため「放射線学的意味マッチングバンク」を導入した。MedVista3Dは、ゼロショット疾患分類、レポート検索、医療視覚質問応答において最先端の性能を達成しており、さらに臓器セグメンテーションや予後予測への転移学習にも優れた適応性を示した。コードおよびデータセットは公開予定である。