@misc{chen2026chibenchaiagentsautomate, title={CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?}, author={Haolin Chen and Deon Metelski and Leon Qi and Tao Xia and Joonyul Lee and Steve Brown and Kevin Riley and Frank Wang and T. Y. Alvin Liu and Hank Capps MD and Zeyu Tang and Xiangchen Song and Lingjing Kong and Fan Feng and Tianyi Zeng and Zhiwei Liu and Zixian Ma and Hang Jiang and Fangli Geng and Yuan Yuan and Chenyu You and Qingsong Wen and Hua Wei and Yanjie Fu and Yue Zhao and Carl Yang and Biwei Huang and Kun Zhang and Caiming Xiong and Sanmi Koyejo and Eric P. Xing and Philip S. Yu and Weiran Yao}, year={2026}, eprint={2605.16679}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2605.16679}, }

日期

2 个月前

论文 URL

2605.16679

许可证

Apache 2.0

标签

基准

医学

Agent

chi-bench（Clinical Healthcare Intelligence Benchmark）是由 Actava AI 于 2026 年发布的医疗智能体评测数据集，相关论文成果为 CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows? 该数据集旨在评估 AI Agent 在端到端美国医疗工作流程中的规划、推理、工具调用和跨系统协作能力。该数据集构建了一个高保真医疗业务仿真环境，集成 20 个通过 MCP（Model Context Protocol）开放接口的医疗应用系统并提供包含 1,279 份医疗运营文档的知识库，评测场景覆盖美国医疗体系中的预授权管理（Prior Authorization）、医保 / 保险方利用率 Citation 管理（Utilization Management）和人群护理管理（Population Care Management）三大领域，共包含 101 个评测任务，其中包括 75 个基础任务、 23 个端到端双智能体任务和 3 个长程 Marathon 任务，可用于医疗大模型、医疗智能体、多智能体协作以及医疗流程自动化等方向的研究与评估。

Citation

@misc{chen2026chibenchaiagentsautomate,
title={CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?},
author={Haolin Chen and Deon Metelski and Leon Qi and Tao Xia and Joonyul Lee and Steve Brown and Kevin Riley and Frank Wang and T. Y. Alvin Liu and Hank Capps MD and Zeyu Tang and Xiangchen Song and Lingjing Kong and Fan Feng and Tianyi Zeng and Zhiwei Liu and Zixian Ma and Hang Jiang and Fangli Geng and Yuan Yuan and Chenyu You and Qingsong Wen and Hua Wei and Yanjie Fu and Yue Zhao and Carl Yang and Biwei Huang and Kun Zhang and Caiming Xiong and Sanmi Koyejo and Eric P. Xing and Philip S. Yu and Weiran Yao},
year={2026},
eprint={2605.16679},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2605.16679},
}

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

使用此数据集在 Discord 上讨论

日期

2 个月前

论文 URL

2605.16679

许可证

Apache 2.0

标签

基准

医学

Agent

Citation

@misc{chen2026chibenchaiagentsautomate,
title={CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?},
author={Haolin Chen and Deon Metelski and Leon Qi and Tao Xia and Joonyul Lee and Steve Brown and Kevin Riley and Frank Wang and T. Y. Alvin Liu and Hank Capps MD and Zeyu Tang and Xiangchen Song and Lingjing Kong and Fan Feng and Tianyi Zeng and Zhiwei Liu and Zixian Ma and Hang Jiang and Fangli Geng and Yuan Yuan and Chenyu You and Qingsong Wen and Hua Wei and Yanjie Fu and Yue Zhao and Carl Yang and Biwei Huang and Kun Zhang and Caiming Xiong and Sanmi Koyejo and Eric P. Xing and Philip S. Yu and Weiran Yao},
year={2026},
eprint={2605.16679},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2605.16679},
}

3 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

chi-bench 医疗智能体基准评测数据集

Citation

用 AI 构建 AI

HyperAI Newsletters

Command Palette

chi-bench 医疗智能体基准评测数据集

Citation

相关数据集

Global Climate & Energy Transition 2000 – 2026 全球气候能源数据集

MAKIEVAL 多语言文化知识评估数据集

Verbatim Spans 查询条件证据提取数据集

RHELM 长程记忆评估数据集

SAM 3D Artist Objects 3D 物体重建数据集

FigureBench 科学插图生成基准数据集

TACK 靶向嵌合体知识库数据集

EAVSD 电商广告视频分镜数据集

DeepCrack 基础设施裂缝检测数据集

ViMU 视频隐喻理解数据集

MemLens 多模态长上下文基准数据集

VisCoR-55K 视觉推理数据集

MathNet 多模态数学基准推理数据集

Claw-Eval 真实世界评测基准数据集

Eye Disease Classification Fundus 眼底疾病分类数据集

Long-Distance Wildfire & Smoke Detection 长距离野火烟雾检测数据集

Breast Cancer：Multi-Modal Fusion 乳腺癌多模态融合数据集

QCalEval 量子校准图表理解数据集

RSRCC 遥感区域变化理解基准数据集

World Model Bench 世界模型基准数据集

用 AI 构建 AI

HyperAI Newsletters

Command Palette

chi-bench 医疗智能体基准评测数据集

Citation

相关数据集

Global Climate & Energy Transition 2000 – 2026 全球气候能源数据集

MAKIEVAL 多语言文化知识评估数据集

Verbatim Spans 查询条件证据提取数据集

RHELM 长程记忆评估数据集

SAM 3D Artist Objects 3D 物体重建数据集

FigureBench 科学插图生成基准数据集

TACK 靶向嵌合体知识库数据集

EAVSD 电商广告视频分镜数据集

DeepCrack 基础设施裂缝检测数据集

ViMU 视频隐喻理解数据集

MemLens 多模态长上下文基准数据集

VisCoR-55K 视觉推理数据集

MathNet 多模态数学基准推理数据集

Claw-Eval 真实世界评测基准数据集

Eye Disease Classification Fundus 眼底疾病分类数据集

Long-Distance Wildfire & Smoke Detection 长距离野火烟雾检测数据集

Breast Cancer：Multi-Modal Fusion 乳腺癌多模态融合数据集

QCalEval 量子校准图表理解数据集

RSRCC 遥感区域变化理解基准数据集

World Model Bench 世界模型基准数据集

用 AI 构建 AI

HyperAI Newsletters

相关数据集

Global Climate & Energy Transition 2000 – 2026 全球气候能源数据集

MAKIEVAL 多语言文化知识评估数据集

Verbatim Spans 查询条件证据提取数据集

RHELM 长程记忆评估数据集

SAM 3D Artist Objects 3D 物体重建数据集

FigureBench 科学插图生成基准数据集

TACK 靶向嵌合体知识库数据集

EAVSD 电商广告视频分镜数据集

DeepCrack 基础设施裂缝检测数据集

ViMU 视频隐喻理解数据集

MemLens 多模态长上下文基准数据集

VisCoR-55K 视觉推理数据集

MathNet 多模态数学基准推理数据集

Claw-Eval 真实世界评测基准数据集

Eye Disease Classification Fundus 眼底疾病分类数据集

Long-Distance Wildfire & Smoke Detection 长距离野火烟雾检测数据集

Breast Cancer：Multi-Modal Fusion 乳腺癌多模态融合数据集

QCalEval 量子校准图表理解数据集

RSRCC 遥感区域变化理解基准数据集

World Model Bench 世界模型基准数据集

相关数据集

Global Climate & Energy Transition 2000 – 2026 全球气候能源数据集