Command Palette
Search for a command to run...

要約
マルチモーダル大規模言語モデル(MLLM)の急速な発展、たとえばGPT-4Vの登場により、著しい進展が見られている。しかし、医療分野におけるマルチモーダル能力に関しては、データのプライバシー懸念や高額なラベル付けコストに起因する、医療画像・テキストデータの量と質の制限により、依然として課題が残っている。先駆的なアプローチでは、PubMedに収録された大規模かつ匿名化された医療画像・テキストペアを活用してこれらの制約を克服しようとしているが、元々のデータに含まれるノイズの問題により、十分な成果に至っていない。本研究では、PubMedから得た医療画像・テキストペアを精査・洗練し、GPT-4Vを「非盲検(unblinded)」の状態で用いてデータのノイズ除去とフォーマットの再構成を実施した。その結果、130万件の医療VQA(視覚質問応答)サンプルを含む「PubMedVision」データセットを構築した。検証の結果、以下の点が明らかになった:(1)PubMedVisionは、現在のMLLMの医療分野におけるマルチモーダル能力を顕著に向上させ、MMMU Health & Medicineトラックを含む複数のベンチマークで顕著な性能向上を示した;(2)医療専門家による手動検証および実証的結果から、本データセットの優れたデータ品質が他手法と比較して確認された。本データセットを用いて、340億パラメータの医療MLLM「HuatuoGPT-Vision」を学習させた結果、オープンソースMLLMの中でも、医療分野におけるマルチモーダルタスクで優れた性能を発揮した。
コードリポジトリ
freedomintelligence/huatuogpt-vision
公式
pytorch
GitHubで言及