2ヶ月前

華佗GPT-Vision：大規模なマルチモーダルLLMに医療視覚知識を統合するための取り組み

Junying Chen Ruyi Ouyang Anningzhe Gao Shunian Chen Guiming Hardy Chen Xidong Wang Ruifei Zhang Zhenyang Cai Ke Ji Guangjun Yu

要約

マルチモーダル大規模言語モデル（MLLM）の急速な発展、たとえばGPT-4Vの登場により、著しい進展が見られている。しかし、医療分野におけるマルチモーダル能力に関しては、データのプライバシー懸念や高額なラベル付けコストに起因する、医療画像・テキストデータの量と質の制限により、依然として課題が残っている。先駆的なアプローチでは、PubMedに収録された大規模かつ匿名化された医療画像・テキストペアを活用してこれらの制約を克服しようとしているが、元々のデータに含まれるノイズの問題により、十分な成果に至っていない。本研究では、PubMedから得た医療画像・テキストペアを精査・洗練し、GPT-4Vを「非盲検（unblinded）」の状態で用いてデータのノイズ除去とフォーマットの再構成を実施した。その結果、130万件の医療VQA（視覚質問応答）サンプルを含む「PubMedVision」データセットを構築した。検証の結果、以下の点が明らかになった：（1）PubMedVisionは、現在のMLLMの医療分野におけるマルチモーダル能力を顕著に向上させ、MMMU Health & Medicineトラックを含む複数のベンチマークで顕著な性能向上を示した；（2）医療専門家による手動検証および実証的結果から、本データセットの優れたデータ品質が他手法と比較して確認された。本データセットを用いて、340億パラメータの医療MLLM「HuatuoGPT-Vision」を学習させた結果、オープンソースMLLMの中でも、医療分野におけるマルチモーダルタスクで優れた性能を発揮した。

コードリポジトリ

freedomintelligence/huatuogpt-vision

公式

pytorch

GitHubで言及

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング

すぐに使える GPU

最適価格

今すぐ始める

Hyper Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

華佗GPT-Vision：大規模なマルチモーダルLLMに医療視覚知識を統合するための取り組み

Junying Chen Ruyi Ouyang Anningzhe Gao Shunian Chen Guiming Hardy Chen Xidong Wang Ruifei Zhang Zhenyang Cai Ke Ji Guangjun Yu2 more

要約

コードリポジトリ

AI で AI を構築

Hyper Newsletters

Junying Chen Ruyi Ouyang Anningzhe Gao Shunian Chen Guiming Hardy Chen Xidong Wang Ruifei Zhang Zhenyang Cai Ke Ji Guangjun Yu