@misc{chen2026chibenchaiagentsautomate, title={CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?}, author={Haolin Chen and Deon Metelski and Leon Qi and Tao Xia and Joonyul Lee and Steve Brown and Kevin Riley and Frank Wang and T. Y. Alvin Liu and Hank Capps MD and Zeyu Tang and Xiangchen Song and Lingjing Kong and Fan Feng and Tianyi Zeng and Zhiwei Liu and Zixian Ma and Hang Jiang and Fangli Geng and Yuan Yuan and Chenyu You and Qingsong Wen and Hua Wei and Yanjie Fu and Yue Zhao and Carl Yang and Biwei Huang and Kun Zhang and Caiming Xiong and Sanmi Koyejo and Eric P. Xing and Philip S. Yu and Weiran Yao}, year={2026}, eprint={2605.16679}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2605.16679}, }

日付

2ヶ月前

Paper URL

2605.16679

ライセンス

Apache 2.0

タグ

ベンチマーク

医学

エージェント

chi-bench（Clinical Healthcare Intelligence Benchmark）は、Actava AIが2026年にリリースした、医療インテリジェンスエージェントを評価するためのデータセットです。関連する研究論文には、以下のようなものがあります。 CHI-Bench：AIエージェントは、エンドツーエンドで長期的な、ポリシーが豊富な医療ワークフローを自動化できるか？このデータセットは、米国の医療ワークフロー全体におけるAIエージェントの計画、推論、ツール呼び出し、およびシステム間連携機能を評価することを目的としています。このデータセットは、MCP（Model Context Protocol）のオープンインターフェースを介して20の医療アプリケーションシステムを統合し、1,279件の医療業務文書を含む知識ベースを提供することで、高精度の医療業務シミュレーション環境を構築します。評価シナリオは、米国の医療制度における3つの主要分野、すなわち事前承認、請求管理、および集団ケア管理を網羅しています。評価タスクは101項目あり、内訳は基本タスク75項目、エンドツーエンドの2エージェントタスク23項目、および長距離マラソンタスク3項目です。大規模医療モデル、医療エージェント、マルチエージェント連携、医療プロセス自動化などの分野における研究および評価に活用できます。

引用

@misc{chen2026chibenchaiagentsautomate,
title={CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?},
author={Haolin Chen and Deon Metelski and Leon Qi and Tao Xia and Joonyul Lee and Steve Brown and Kevin Riley and Frank Wang and T. Y. Alvin Liu and Hank Capps MD and Zeyu Tang and Xiangchen Song and Lingjing Kong and Fan Feng and Tianyi Zeng and Zhiwei Liu and Zixian Ma and Hang Jiang and Fangli Geng and Yuan Yuan and Chenyu You and Qingsong Wen and Hua Wei and Yanjie Fu and Yue Zhao and Carl Yang and Biwei Huang and Kun Zhang and Caiming Xiong and Sanmi Koyejo and Eric P. Xing and Philip S. Yu and Weiran Yao},
year={2026},
eprint={2605.16679},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2605.16679},
}

このデータセットはコミュニティユーザーによって提供されており、教育および情報提供のみを目的としています。著作権侵害に関わるコンテンツがある場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

このデータセットを使用 Discordで議論

日付

2ヶ月前

Paper URL

2605.16679

ライセンス

Apache 2.0

タグ

ベンチマーク

医学

エージェント

引用

@misc{chen2026chibenchaiagentsautomate,
title={CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?},
author={Haolin Chen and Deon Metelski and Leon Qi and Tao Xia and Joonyul Lee and Steve Brown and Kevin Riley and Frank Wang and T. Y. Alvin Liu and Hank Capps MD and Zeyu Tang and Xiangchen Song and Lingjing Kong and Fan Feng and Tianyi Zeng and Zhiwei Liu and Zixian Ma and Hang Jiang and Fangli Geng and Yuan Yuan and Chenyu You and Qingsong Wen and Hua Wei and Yanjie Fu and Yue Zhao and Carl Yang and Biwei Huang and Kun Zhang and Caiming Xiong and Sanmi Koyejo and Eric P. Xing and Philip S. Yu and Weiran Yao},
year={2026},
eprint={2605.16679},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2605.16679},
}

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

chi-bench 医療インテリジェントエージェントベンチマーク評価データセット

引用

AIでAIを構築

HyperAI Newsletters

Command Palette

chi-bench 医療インテリジェントエージェントベンチマーク評価データセット

引用

関連データセット

地球規模の気候・エネルギー転換 2000年～2026年 地球規模の気候・エネルギーデータセット

MAKIEVAL 多言語文化知識評価データセット

逐語的スパンクエリ条件証拠抽出データセット

RHELM長期記憶評価データセット

SAM 3Dアーティストオブジェクト 3Dオブジェクト再構築データセット

FigureBench科学イラスト生成ベンチマークデータセット

TACKターゲットキメラ知識ベースデータセット

EAVSD（電子商取引広告ビデオストーリーボードデータセット）

DeepCrackインフラストラクチャ亀裂検出データセット

ViMUビデオメタファー理解データセット

MemLensマルチモーダル長コンテキストベンチマークデータセット

VisCoR-55K ビジュアル推論データセット

MathNetマルチモーダル数学ベンチマーク推論データセット

Claw-Eval実世界ベンチマークデータセット

眼底疾患分類データセット

長距離山火事・煙検知データセット

乳がん：マルチモーダル融合データセット

QCalEval 量子較正グラフの理解データセット

RSRCCリモートセンシング領域変化理解ベンチマークデータセット

ワールドモデルベンチデータセット

AIでAIを構築

HyperAI Newsletters

Command Palette

chi-bench 医療インテリジェントエージェントベンチマーク評価データセット

引用

関連データセット

地球規模の気候・エネルギー転換 2000年～2026年 地球規模の気候・エネルギーデータセット

MAKIEVAL 多言語文化知識評価データセット

逐語的スパンクエリ条件証拠抽出データセット

RHELM長期記憶評価データセット

SAM 3Dアーティストオブジェクト 3Dオブジェクト再構築データセット

FigureBench科学イラスト生成ベンチマークデータセット

TACKターゲットキメラ知識ベースデータセット

EAVSD（電子商取引広告ビデオストーリーボードデータセット）

DeepCrackインフラストラクチャ亀裂検出データセット

ViMUビデオメタファー理解データセット

MemLensマルチモーダル長コンテキストベンチマークデータセット

VisCoR-55K ビジュアル推論データセット

MathNetマルチモーダル数学ベンチマーク推論データセット

Claw-Eval実世界ベンチマークデータセット

眼底疾患分類データセット

長距離山火事・煙検知データセット

乳がん：マルチモーダル融合データセット

QCalEval 量子較正グラフの理解データセット

RSRCCリモートセンシング領域変化理解ベンチマークデータセット

ワールドモデルベンチデータセット

AIでAIを構築

HyperAI Newsletters

関連データセット

地球規模の気候・エネルギー転換 2000年～2026年 地球規模の気候・エネルギーデータセット

MAKIEVAL 多言語文化知識評価データセット

逐語的スパンクエリ条件証拠抽出データセット

RHELM長期記憶評価データセット

SAM 3Dアーティストオブジェクト 3Dオブジェクト再構築データセット

FigureBench科学イラスト生成ベンチマークデータセット

TACKターゲットキメラ知識ベースデータセット

EAVSD（電子商取引広告ビデオストーリーボードデータセット）

DeepCrackインフラストラクチャ亀裂検出データセット

ViMUビデオメタファー理解データセット

MemLensマルチモーダル長コンテキストベンチマークデータセット

VisCoR-55K ビジュアル推論データセット

MathNetマルチモーダル数学ベンチマーク推論データセット

Claw-Eval実世界ベンチマークデータセット

眼底疾患分類データセット

長距離山火事・煙検知データセット

乳がん：マルチモーダル融合データセット

QCalEval 量子較正グラフの理解データセット

RSRCCリモートセンシング領域変化理解ベンチマークデータセット

ワールドモデルベンチデータセット

関連データセット

地球規模の気候・エネルギー転換 2000年～2026年 地球規模の気候・エネルギーデータセット

地球規模の気候・エネルギー転換 2000年～2026年地球規模の気候・エネルギーデータセット

地球規模の気候・エネルギー転換 2000年～2026年地球規模の気候・エネルギーデータセット

地球規模の気候・エネルギー転換 2000年～2026年地球規模の気候・エネルギーデータセット

地球規模の気候・エネルギー転換 2000年～2026年地球規模の気候・エネルギーデータセット