@misc{chen2026chibenchaiagentsautomate, title={CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?}, author={Haolin Chen and Deon Metelski and Leon Qi and Tao Xia and Joonyul Lee and Steve Brown and Kevin Riley and Frank Wang and T. Y. Alvin Liu and Hank Capps MD and Zeyu Tang and Xiangchen Song and Lingjing Kong and Fan Feng and Tianyi Zeng and Zhiwei Liu and Zixian Ma and Hang Jiang and Fangli Geng and Yuan Yuan and Chenyu You and Qingsong Wen and Hua Wei and Yanjie Fu and Yue Zhao and Carl Yang and Biwei Huang and Kun Zhang and Caiming Xiong and Sanmi Koyejo and Eric P. Xing and Philip S. Yu and Weiran Yao}, year={2026}, eprint={2605.16679}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2605.16679}, }

Utiliser ce jeu de données Discuter sur Discord

Date

il y a 2 mois

URL du document

2605.16679

Licence

Apache 2.0

Balises

Benchmarks

Médecine

Agent

chi-bench (Clinical Healthcare Intelligence Benchmark) est un ensemble de données permettant d'évaluer les agents d'intelligence artificielle en santé, publié par Actava AI en 2026. Parmi les articles de recherche associés, on peut citer… CHI-Bench : Les agents d’IA peuvent-ils automatiser les flux de travail de soins de santé de bout en bout, à long terme et riches en politiques ? Cet ensemble de données vise à évaluer les capacités de planification, de raisonnement, d'invocation d'outils et de collaboration intersystèmes de l'agent d'IA dans un flux de travail de bout en bout du système de santé américain. Ce jeu de données construit un environnement de simulation d'activité médicale haute fidélité, intégrant 20 systèmes d'application médicale via l'interface ouverte du protocole MCP (Model Context Protocol) et fournissant une base de connaissances contenant 1 279 documents d'opérations médicales. Les scénarios d'évaluation couvrent trois grands domaines du système de santé américain : l'autorisation préalable, la gestion des citations et la gestion des soins de santé à l'échelle de la population. Il comprend 101 tâches d'évaluation, dont 75 tâches de base, 23 tâches de bout en bout à deux agents et 3 tâches de longue durée de type « marathon ». Il peut être utilisé pour la recherche et l'évaluation dans des domaines tels que les modèles médicaux à grande échelle, les agents médicaux, la collaboration multi-agents et l'automatisation des processus médicaux.

Citation

@misc{chen2026chibenchaiagentsautomate,
title={CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?},
author={Haolin Chen and Deon Metelski and Leon Qi and Tao Xia and Joonyul Lee and Steve Brown and Kevin Riley and Frank Wang and T. Y. Alvin Liu and Hank Capps MD and Zeyu Tang and Xiangchen Song and Lingjing Kong and Fan Feng and Tianyi Zeng and Zhiwei Liu and Zixian Ma and Hang Jiang and Fangli Geng and Yuan Yuan and Chenyu You and Qingsong Wen and Hua Wei and Yanjie Fu and Yue Zhao and Carl Yang and Biwei Huang and Kun Zhang and Caiming Xiong and Sanmi Koyejo and Eric P. Xing and Philip S. Yu and Weiran Yao},
year={2026},
eprint={2605.16679},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2605.16679},
}

Ce jeu de données est fourni par les utilisateurs de la communauté et est destiné uniquement à des fins éducatives et informatives. Si un contenu enfreint des droits d'auteur, veuillez nous contacter à [email protected] pour examen et retrait rapides.

undefined

Transition Climatique Et Énergétique Mondiale 2000-2026 : Ensemble De Données Mondial Sur Le Climat Et L’énergie

il y a 12 jours

Ensemble De Données d'évaluation Des Connaissances Culturelles Multilingues De MAKIEVAL

il y a 13 jours

Ensemble De Données d'extraction De Preuves De Condition De Requête Verbatim Spans

il y a 12 jours

Ensemble De Données d'évaluation De La Mémoire À Long Terme RHELM

il y a 14 jours

Ensemble De Données De Reconstruction d'objets 3D Pour Artistes SAM 3D

il y a 19 jours

Ensemble De Données De Référence FigureBench Pour La Génération d'illustrations Scientifiques

il y a 21 jours

Base De Données De Connaissances TACK Targeted Chimera

il y a un mois

Ensemble De Données EAVSD Sur Les Storyboards Vidéo Publicitaires Pour Le Commerce Électronique

il y a un mois

Ensemble De Données De Référence Multimodal MathNet Pour l'inférence Mathématique

il y a 2 mois

Ensemble De Données De Référence En Monde Réel Claw-Eval

il y a 2 mois

Ensemble De Données De Classification Des Maladies Du Fond d'œil

il y a 2 mois

Ensemble De Données Sur La Détection Des Feux De Forêt Et De La Fumée À Longue Distance

il y a 2 mois

Cancer Du Sein : Ensemble De Données De Fusion Multimodale

il y a 2 mois

Ensemble De Données De Compréhension Du Graphe d'étalonnage Quantique QCalEval

il y a 2 mois

Ensemble De Données De Référence Pour La Compréhension Des Changements De Zone Par Télédétection RSRCC

il y a 22 jours

Ensemble De Données World Model Bench

il y a 3 mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

Utiliser ce jeu de données Discuter sur Discord

Date

il y a 2 mois

URL du document

2605.16679

Licence

Apache 2.0

Balises

Benchmarks

Médecine

Agent