Command Palette
Search for a command to run...
chi-bench 医療インテリジェントエージェントベンチマーク評価データセット
chi-bench(Clinical Healthcare Intelligence Benchmark)は、Actava AIが2026年にリリースした、医療インテリジェンスエージェントを評価するためのデータセットです。関連する研究論文には、以下のようなものがあります。 CHI-Bench:AIエージェントは、エンドツーエンドで長期的な、ポリシーが豊富な医療ワークフローを自動化できるか? このデータセットは、米国の医療ワークフロー全体におけるAIエージェントの計画、推論、ツール呼び出し、およびシステム間連携機能を評価することを目的としています。 このデータセットは、MCP(Model Context Protocol)のオープンインターフェースを介して20の医療アプリケーションシステムを統合し、1,279件の医療業務文書を含む知識ベースを提供することで、高精度の医療業務シミュレーション環境を構築します。評価シナリオは、米国の医療制度における3つの主要分野、すなわち事前承認、請求管理、および集団ケア管理を網羅しています。評価タスクは101項目あり、内訳は基本タスク75項目、エンドツーエンドの2エージェントタスク23項目、および長距離マラソンタスク3項目です。大規模医療モデル、医療エージェント、マルチエージェント連携、医療プロセス自動化などの分野における研究および評価に活用できます。
引用
@misc{chen2026chibenchaiagentsautomate,
title={CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?},
author={Haolin Chen and Deon Metelski and Leon Qi and Tao Xia and Joonyul Lee and Steve Brown and Kevin Riley and Frank Wang and T. Y. Alvin Liu and Hank Capps MD and Zeyu Tang and Xiangchen Song and Lingjing Kong and Fan Feng and Tianyi Zeng and Zhiwei Liu and Zixian Ma and Hang Jiang and Fangli Geng and Yuan Yuan and Chenyu You and Qingsong Wen and Hua Wei and Yanjie Fu and Yue Zhao and Carl Yang and Biwei Huang and Kun Zhang and Caiming Xiong and Sanmi Koyejo and Eric P. Xing and Philip S. Yu and Weiran Yao},
year={2026},
eprint={2605.16679},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2605.16679},
}