6ヶ月前

概要

複雑な医療意思決定は、複数の臨床医が協働するワークフローによって行われる。AIマルチエージェントシステムの設計により、人間レベルの臨床意思決定を迅速化・強化することが可能となる。これまでのマルチエージェント研究は主に言語のみを対象としているが、多モーダルな状況への拡張は依然として困難である。異なる視覚言語モデル（VLM）を盲目的に組み合わせると、誤った結果の解釈が拡大するリスクがある。一般的に、同等規模の大規模言語モデル（LLM）と比較して、VLMは指示の遂行能力および特に自己反省能力に劣っている。この差異は、VLMの協働ワークフローにおける能力を大きく制限している。本研究では、医療分野における多モーダル意思決定を目的とした、メディエータを用いたマルチエージェント協働フレームワーク「MedOrch」を提案する。MedOrchは、LLMに基づくメディエータエージェントを採用し、複数のVLMに基づく専門エージェントがそれぞれの出力を共有・検討・反省することで協働を実現する。高価なGPTシリーズモデルに代わって、複数のオープンソースの汎用的および領域特化型VLMを用いることで、異種モデルの強みを明らかにした。本研究では、異なるVLMベースのエージェント間の協働が、個々のエージェントの能力を上回ることを示した。また、5つの医療視覚質問応答ベンチマークにおいて本アプローチの有効性を検証し、モデルの再学習を伴わずに優れた協働性能を達成することを確認した。これらの結果は、メディエータを介したマルチエージェント協働が医療分野における多モーダル知能の進展に重要な価値を持つことを示している。本研究のコードは公開予定である。

ソースPDF