HyperAIHyperAI

Command Palette

Search for a command to run...

chi-bench 医疗智能体基准评测数据集

日期

2 小时前

论文 URL

2605.16679

许可证

Apache 2.0

chi-bench(Clinical Healthcare Intelligence Benchmark)是由 Actava AI 于 2026 年发布的医疗智能体评测数据集,相关论文成果为 CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows? 该数据集旨在评估 AI Agent 在端到端美国医疗工作流程中的规划、推理、工具调用和跨系统协作能力。 该数据集构建了一个高保真医疗业务仿真环境,集成 20 个通过 MCP(Model Context Protocol)开放接口的医疗应用系统并提供包含 1,279 份医疗运营文档的知识库,评测场景覆盖美国医疗体系中的预授权管理(Prior Authorization)、医保 / 保险方利用率 Citation 管理(Utilization Management)和人群护理管理(Population Care Management)三大领域,共包含 101 个评测任务,其中包括 75 个基础任务、 23 个端到端双智能体任务和 3 个长程 Marathon 任务,可用于医疗大模型、医疗智能体、多智能体协作以及医疗流程自动化等方向的研究与评估。

Citation

@misc{chen2026chibenchaiagentsautomate,
title={CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?},
author={Haolin Chen and Deon Metelski and Leon Qi and Tao Xia and Joonyul Lee and Steve Brown and Kevin Riley and Frank Wang and T. Y. Alvin Liu and Hank Capps MD and Zeyu Tang and Xiangchen Song and Lingjing Kong and Fan Feng and Tianyi Zeng and Zhiwei Liu and Zixian Ma and Hang Jiang and Fangli Geng and Yuan Yuan and Chenyu You and Qingsong Wen and Hua Wei and Yanjie Fu and Yue Zhao and Carl Yang and Biwei Huang and Kun Zhang and Caiming Xiong and Sanmi Koyejo and Eric P. Xing and Philip S. Yu and Weiran Yao},
year={2026},
eprint={2605.16679},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2605.16679},
}

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供