Command Palette

Search for a command to run...

2ヶ月前

華佗GPT-Vision:大規模なマルチモーダルLLMに医療視覚知識を統合するための取り組み

華佗GPT-Vision:大規模なマルチモーダルLLMに医療視覚知識を統合するための取り組み

要約

マルチモーダル大規模言語モデル(MLLM)の急速な発展、たとえばGPT-4Vの登場により、著しい進展が見られている。しかし、医療分野におけるマルチモーダル能力に関しては、データのプライバシー懸念や高額なラベル付けコストに起因する、医療画像・テキストデータの量と質の制限により、依然として課題が残っている。先駆的なアプローチでは、PubMedに収録された大規模かつ匿名化された医療画像・テキストペアを活用してこれらの制約を克服しようとしているが、元々のデータに含まれるノイズの問題により、十分な成果に至っていない。本研究では、PubMedから得た医療画像・テキストペアを精査・洗練し、GPT-4Vを「非盲検(unblinded)」の状態で用いてデータのノイズ除去とフォーマットの再構成を実施した。その結果、130万件の医療VQA(視覚質問応答)サンプルを含む「PubMedVision」データセットを構築した。検証の結果、以下の点が明らかになった:(1)PubMedVisionは、現在のMLLMの医療分野におけるマルチモーダル能力を顕著に向上させ、MMMU Health & Medicineトラックを含む複数のベンチマークで顕著な性能向上を示した;(2)医療専門家による手動検証および実証的結果から、本データセットの優れたデータ品質が他手法と比較して確認された。本データセットを用いて、340億パラメータの医療MLLM「HuatuoGPT-Vision」を学習させた結果、オープンソースMLLMの中でも、医療分野におけるマルチモーダルタスクで優れた性能を発揮した。

コードリポジトリ

freedomintelligence/huatuogpt-vision
公式
pytorch
GitHubで言及

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
華佗GPT-Vision:大規模なマルチモーダルLLMに医療視覚知識を統合するための取り組み | 論文 | HyperAI超神経