
胸部X線画像は急性および慢性の心肺疾患の予測に一般的に使用されていますが、構造化された臨床データとの統合には電子健康記録(EHR)の不完全さという課題があります。本論文では、MedPromptXを紹介します。これは、マルチモーダル大規模言語モデル(MLLM)、ショット数が少ないプロンプト(FP)、および視覚的基盤(VG)を組み合わせて、胸部X線診断のために画像とEHRデータを統合する最初の臨床支援システムです。事前学習済みのMLLMを使用して欠落しているEHR情報を補完し、患者の医療履歴に対する包括的な理解を提供します。さらに、FPはMLLMの広範な訓練の必要性を軽減しつつ、幻覚問題を効果的に解決します。しかし、最適なショット数が少ない例の数と高品質な候補を選択するプロセスは負担となり得ますが、モデル性能に大きな影響を与えます。したがって、新しい技術を提案し、新規患者シナリオへのリアルタイム対応のために少ショットデータを動的に洗練することを目指しています。また、VGはX線画像内の検索範囲を狭めることで異常部位の特定を向上させます。私たちはまた、MIMIC-IVとMIMIC-CXR-JPGデータベースから派生した画像とEHRデータが交互に配置された新しいコンテキスト内視覚質問回答データセットMedPromptX-VQAも公開します。結果はMedPromptXの最先端性能を示しており、ベースラインと比較してF1スコアで11%の改善が見られました。コードとデータはhttps://github.com/BioMedIA-MBZUAI/MedPromptX で公開されています。注:「幻覚問題」(hallucination)は機械学習における専門用語であり、「モデルが実際には存在しない情報やパターンを作り出してしまう現象」を指します。