2ヶ月前

LLaVA-Med: 1日でバイオメディカル用の大規模言語・ビジョンアシスタントを訓練する

Chunyuan Li; Cliff Wong; Sheng Zhang; Naoto Usuyama; Haotian Liu; Jianwei Yang; Tristan Naumann; Hoifung Poon; Jianfeng Gao
LLaVA-Med: 1日でバイオメディカル用の大規模言語・ビジョンアシスタントを訓練する
要約

対話型ジェネレーティブAIは、バイオメディカル実践者を支援する上で著しい可能性を示していますが、現時点での研究は単一モーダルのテキストに焦点を当てています。マルチモーダル対話型AIは、公開ウェブから取得した数十億の画像-テキストペアを活用することで急速な進歩を遂げていますが、一般的なドメインのビジョン言語モデルは依然としてバイオメディカル画像についての理解と会話を洗練するのに不足しています。本論文では、バイオメディカル画像に関するオープンエンド型研究質問に答えることができるビジョン言語対話アシスタントの訓練方法として、コスト効率の高い手法を提案します。この手法の核心は、PubMed Centralから抽出した大規模で幅広いカバレッジを持つバイオメディカル図表-キャプションデータセットを活用し、GPT-4を使用してキャプションからオープンエンド型指示追従データを作成し、次に新しいカリキュラム学習方法を使用して大規模な一般ドメインのビジョン言語モデルを微調整することです。具体的には、モデルはまず図表-キャプションペアをそのまま使用してバイオメディカル用語との照合を学習し、その後GPT-4によって生成された指示追従データを使用してオープンエンド型対話セマンティクスの習得を目指します。これは非専門家が徐々にバイオメディカル知識を得る過程を概ね模倣しています。これにより、8つのA100 GPUを使用して15時間未満で大規模言語・ビジョンアシスタント(LLaVA-Med)を訓練することが可能となります。LLaVA-Medは優れたマルチモーダル対話能力を持ち、オープンエンド型指示に従ってバイオメディカル画像に関する問い合わせに対応することができます。3つの標準的なバイオメディカル視覚質問回答データセットにおいて、LLaVA-Medは特定の指標で以前の監督学習による最先端モデルよりも優れた性能を発揮しました。バイオメディカルマルチモーダル研究を促進するために、我々は指示追従データとLLaVA-Medモデルを公開します。

LLaVA-Med: 1日でバイオメディカル用の大規模言語・ビジョンアシスタントを訓練する | 最新論文 | HyperAI超神経