Command Palette
Search for a command to run...
PubMedVision医療マルチモーダル評価データセット
PubMedVisionは、深圳ビッグデータ研究所、香港中文大学(深圳)、国立医療ビッグデータ研究所(深圳)が2024年に公開した医療マルチモーダル能力評価のためのデータセットです。関連論文の結果は「HuatuoGPT-Vision、マルチモーダル LLM への大規模な医療視覚知識の導入に向けて」は、医療分野における視覚知識の融合と推論パフォーマンスをテストするために、医療ビジョンテキスト理解タスクにおけるマルチモーダル大規模言語モデル(MLLM)の標準化されたテストリソースを提供することを目的としています。 このデータセットには、約130万件の医療用ビジュアル質問応答(VQA)サンプルが含まれており、これには647,031件のアラインメント済みVQAサンプルと、さらに647,031件の指示ベースの微調整VQAサンプルが含まれます。このデータは、厳選された914,960枚の医療画像と、それらに付随するコンテキスト(タイトルや本文中の引用など)から構成されており、様々な医療画像モダリティと解剖学的領域を網羅しています。各サンプルは、医学論文からの画像と説明文で構成されています。対応する画像の説明、質問、回答を生成するために、マルチモーダル大規模言語モデル(GPT-4Vなど)が使用されています。

引用
@misc{chen2024huatuogptvisioninjectingmedicalvisual,
title={HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale},
author={Junying Chen and Ruyi Ouyang and Anningzhe Gao and Shunian Chen and Guiming Hardy Chen and Xidong Wang and Ruifei Zhang and Zhenyang Cai and Ke Ji and Guangjun Yu and Xiang Wan and Benyou Wang},
year={2024},
eprint={2406.19280},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2406.19280},
}