HyperAIHyperAI
il y a 13 jours

Collaboration multi-agents guidée par un médiateur entre modèles open-source pour la prise de décision médicale

Kaitao Chen, Mianxin Liu, Daoming Zong, Chaoyue Ding, Shaohao Rui, et al
Collaboration multi-agents guidée par un médiateur entre modèles open-source pour la prise de décision médicale
Résumé

La prise de décision médicale complexe repose sur des flux de travail collaboratifs menés par différents cliniciens. La conception de systèmes d’agents intelligents (IA) multi-agents peut accélérer et renforcer la prise de décision clinique au niveau humain. Les recherches existantes sur les multi-agents se concentrent principalement sur des tâches exclusivement linguistiques, tandis que leur extension à des scénarios multimodaux demeure difficile. Une combinaison aveugle de modèles vision-langage (VLM) diversifiés peut amplifier l’interprétation erronée des résultats. En général, les VLM sont moins performants en suivis d'instructions et, surtout, en auto-réflexion, comparés aux grands modèles linguistiques (LLM) de taille comparable. Ce déséquilibre limite fortement la capacité des VLM à participer à des flux de travail collaboratifs. Dans cette étude, nous proposons MedOrch, un cadre de collaboration multi-agents guidée par un médiateur pour la prise de décision multimodale en médecine. MedOrch utilise un agent médiateur basé sur un LLM, qui permet à plusieurs agents experts basés sur des VLM d’échanger leurs sorties et de les réfléchir afin de favoriser la collaboration. Nous utilisons plusieurs modèles VLM open source, généraux et spécifiques au domaine, plutôt que des modèles coûteux du type GPT, mettant ainsi en évidence le potentiel des modèles hétérogènes. Nous démontrons que la collaboration entre agents basés sur des VLM distincts peut dépasser les capacités de tout agent individuel. Nous validons notre approche sur cinq benchmarks de réponse à des questions visuelles en médecine, obtenant des performances supérieures en collaboration sans nécessiter d’entraînement des modèles. Nos résultats soulignent la valeur de la collaboration multi-agents guidée par un médiateur pour l’avancement de l’intelligence multimodale en médecine. Le code source sera rendu publiquement disponible.