ETHとStanfordが医療AIの精度向上に貢献する5.8Mペアデータセット「MIRIAD」を発表
MIRIAD:580万ペアのデータセットによる医療AIの精度改善 大規模言語モデル(LLM)は、診断支援や柔軟なチャットベースのアシスタントといった智能化されたヘルスケアサポートに革命をもたらそうとしていますが、医学分野においては、事実確認されていない情報(幻覚的応答)を生成してしまう傾向があり、これが大きな課題となっています。この問題に対して一般的に採用されている解決策はRAG(Retrieval-Augmented Generation)で、外部の医療知識を小さなテキストピースに分割し、LLMが生成時に使用できるようにしています。しかし、現行のRAG手法は未整理かつ雑多な医療コンテンツに依存しているため、LLMの解釈が dificult となり、有効活用が難しくなります。これに対策のために、より整理された医療知識の提供が必要となっています。 現行RAGの限界 LLMは一般言語タスクでは優れた性能を発揮しますが、最新かつ正確な知識が必要な医学分野では、しばしば不十分な結果を招きます。RAGは、外部文献に基づくことでコスト効率の高いファインチューニングの代替手段となり得ますが、多くの現行システムは一般的なテキストエンベッドや通常のベクトルデータベースを使用しており、これらは医療コンテンツに最適化されていません。加えて、医療分野にはPubMedQAやMedQAのような、量が少なかったり、選択式だったり、実世界の開かれた質問回答に欠けたデータセットしか存在しません。 MIRIADデータセット ETHチューリッヒ、スタンフォード大学、メイヨー・クリニックなどの研究者らは、580万件の医療質問回答ペアを含むMIRIADデータセットを開発しました。各ペアは半自動プロセスを用いて精査され、ピアレビューされた文献に根ざしています。これは、従来の非構造データセットとは異なり、整理された医療知識を提供することで、医療質問回答システムのパフォーマンスを大幅に向上させますが、特に複雑な医療QAタスクでのLLMの精度を最大6.7%上昇させ、幻覚的応答の検出能力を22.5%から37%向上させています。 データパイプライン MIRIADの構築にはS2ORCコーパスからフィルタリングした89万4千の医療記事を用い、冗長さや雑音の多いコンテントを排除して、クリーンな文章ベースの部分文章に分解しました。その後、構造化プロンプトの使用により、1000万以上の質問回答ペアを生成し、ルールベースのフィルタリングを通じて580万台に絞り込みました。GPT-4のラベルに基づいて訓練されたカスタムクラス分類器によって、さらに440万台の高品質ペアに絞られました。人間の医療専門家もサンプルの精度、関連性、根拠を検証しました。 パフォーマンス向上 MIRIADデータセットは、医療タスクにおける大規模言語モデルの性能を大幅に改善します。RAG手法にMIRIADを利用すると、非構造データを使用する場合と同量のリトリバリドコンテンツでも、最大6.7%の高い精度を達成しました。また、幻覚的応答の検出能力もF1スコアで22.5%から37%向上しています。リトリバーモデルのMIRIAD上的学習も回収品質の向上に寄与しています。データセットの構造と信頼された文献への根拠付けにより、情報をより正確かつ信頼性高くアクセスできます。 MIRIAD-Atlas MIRIADは、医療AIアプリケーションをサポートするための大量の構造化データを提供し、56の医療分野を映射したMIRIAD-Atlasというインタラクティブな2Dマップも含まれています。このマップは埋め込みと次元削減技術を用いて、関連コンテンツをトピックと分野ごとにクラスタリングし、ユーザーが簡単に探索できることを可能にします。MIRIADは、自動フィルターやLLM評価、専門家レビューによる品質管理を組み込んでおり、現行の非構造化コーパスより回収精度を高めて幻覚的応答の識別を助けることが期待されています。今後の改良により、より正確なユーザ参加型のリトリーバルと臨床ツールや医療AIシステムとのさらなる統合が可能になるでしょう。 業界からのコメントと研究者の背景 MIRIADデータセットの開発は、医療AIの発展にとって非常に重要な一歩となると、多くの専門家が評価しています。リサーチャーたちは、医療情報の整理と高度化に向け、より包括的なデータセットの開発を目指す方針であることを表明しています。このデータセットは、医療情報システムの進化と医療の質の向上に寄与すると期待されています。ETH Zurich、Stanford University、Mayo Clinicの研究者とともに開発されたMIRIADは、学術的な根拠と実用的なアプローチの両面で、医療AI分野における新たな基準を設定しています。