HyperAIHyperAI

Command Palette

Search for a command to run...

chi-bench Medical Intelligent Agent Benchmark Evaluation Dataset

Datum

vor 2 Stunden

Paper-URL

2605.16679

Lizenz

Apache 2.0

Chi-Bench (Clinical Healthcare Intelligence Benchmark) ist ein Datensatz zur Evaluierung von Healthcare-Intelligence-Systemen, der 2026 von Actava AI veröffentlicht wurde. Zugehörige Forschungsarbeiten umfassen... CHI-Bench: Können KI-Agenten durchgängige, langfristige und richtlinienreiche Arbeitsabläufe im Gesundheitswesen automatisieren? Ziel dieses Datensatzes ist die Bewertung der Planungs-, Schlussfolgerungs-, Werkzeugaufruf- und systemübergreifenden Kollaborationsfähigkeiten des KI-Agenten in einem durchgängigen US-amerikanischen Arbeitsablauf im Gesundheitswesen. Dieser Datensatz bildet eine hochpräzise Simulationsumgebung für medizinische Geschäftsprozesse ab. Er integriert 20 medizinische Anwendungssysteme über die offene Schnittstelle des MCP (Model Context Protocol) und stellt eine Wissensbasis mit 1.279 Dokumenten zu medizinischen Abläufen bereit. Die Evaluierungsszenarien decken drei zentrale Bereiche des US-amerikanischen Gesundheitssystems ab: Vorabgenehmigung, Zitationsmanagement und Bevölkerungsmanagement. Der Datensatz umfasst 101 Evaluierungsaufgaben, darunter 75 Basisaufgaben, 23 End-to-End-Aufgaben mit zwei Agenten und 3 Marathon-Aufgaben mit großer Reichweite. Er eignet sich für Forschung und Evaluierung in Bereichen wie groß angelegte medizinische Modelle, medizinische Agenten, Multiagenten-Kollaboration und die Automatisierung medizinischer Prozesse.

Zitat

@misc{chen2026chibenchaiagentsautomate,
title={CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?},
author={Haolin Chen and Deon Metelski and Leon Qi and Tao Xia and Joonyul Lee and Steve Brown and Kevin Riley and Frank Wang and T. Y. Alvin Liu and Hank Capps MD and Zeyu Tang and Xiangchen Song and Lingjing Kong and Fan Feng and Tianyi Zeng and Zhiwei Liu and Zixian Ma and Hang Jiang and Fangli Geng and Yuan Yuan and Chenyu You and Qingsong Wen and Hua Wei and Yanjie Fu and Yue Zhao and Carl Yang and Biwei Huang and Kun Zhang and Caiming Xiong and Sanmi Koyejo and Eric P. Xing and Philip S. Yu and Weiran Yao},
year={2026},
eprint={2605.16679},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2605.16679},
}

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp