HyperAIHyperAI
vor 13 Tagen

Mittlergeleitete mehragentenbasierte Zusammenarbeit offener Quellcode-Modelle für medizinische Entscheidungsfindung

Kaitao Chen, Mianxin Liu, Daoming Zong, Chaoyue Ding, Shaohao Rui, et al
Mittlergeleitete mehragentenbasierte Zusammenarbeit offener Quellcode-Modelle für medizinische Entscheidungsfindung
Abstract

Komplexe medizinische Entscheidungsfindung basiert auf kooperativen Arbeitsabläufen, die von verschiedenen Kliniker:innen durchgeführt werden. Die Entwicklung von KI-Multi-Agenten-Systemen kann die menschliche Entscheidungsfindung beschleunigen und verbessern. Bisherige Forschungen zu Multi-Agenten konzentrieren sich hauptsächlich auf rein sprachbasierte Aufgaben, während ihre Anwendung in multimodalen Szenarien weiterhin herausfordernd ist. Eine blindes Kombinieren verschiedener Vision-Sprache-Modelle (VLMs) kann zu einer Verstärkung fehlerhafter Interpretationen führen. Im Vergleich zu großen Sprachmodellen (LLMs) ähnlicher Größe sind VLMs generell weniger gut darin, Anweisungen zu befolgen und insbesondere in der Selbstreflexion. Dieser Unterschied begrenzt die Fähigkeit von VLMs erheblich in kooperativen Arbeitsabläufen. In dieser Studie stellen wir MedOrch vor – einen mediator-gesteuerten Multi-Agenten-Kooperationsrahmen für die multimodale medizinische Entscheidungsfindung. MedOrch setzt einen auf LLMs basierenden Mediator-Agenten ein, der es mehreren VLM-basierten Experten-Agenten ermöglicht, ihre Ergebnisse auszutauschen und gemeinsam zu reflektieren, um effektiv zusammenzuarbeiten. Anstelle kostspieliger GPT-Serien-Modelle nutzen wir mehrere Open-Source-Modelle, sowohl allgemeinzweckorientierte als auch domain-spezifische VLMs, um die Stärke heterogener Modelle aufzuzeigen. Wir zeigen, dass die Zusammenarbeit zwischen unterschiedlichen VLM-basierten Agenten die Fähigkeiten jedes einzelnen Agenten übersteigen kann. Unsere Methode wird an fünf Benchmarks für medizinische Fragebeantwortung im Bereich der Bildanalyse validiert und zeigt eine überlegene Kooperationsleistung, ohne dass ein Modell neu trainiert werden muss. Unsere Ergebnisse unterstreichen den Wert von mediator-gesteuerter Multi-Agenten-Kooperation bei der Weiterentwicklung der multimodalen medizinischen Intelligenz. Der Quellcode wird öffentlich zugänglich gemacht.