@misc{chen2026chibenchaiagentsautomate, title={CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?}, author={Haolin Chen and Deon Metelski and Leon Qi and Tao Xia and Joonyul Lee and Steve Brown and Kevin Riley and Frank Wang and T. Y. Alvin Liu and Hank Capps MD and Zeyu Tang and Xiangchen Song and Lingjing Kong and Fan Feng and Tianyi Zeng and Zhiwei Liu and Zixian Ma and Hang Jiang and Fangli Geng and Yuan Yuan and Chenyu You and Qingsong Wen and Hua Wei and Yanjie Fu and Yue Zhao and Carl Yang and Biwei Huang and Kun Zhang and Caiming Xiong and Sanmi Koyejo and Eric P. Xing and Philip S. Yu and Weiran Yao}, year={2026}, eprint={2605.16679}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2605.16679}, }

Diesen Datensatz verwenden Auf Discord diskutieren

Datum

vor 2 Monaten

Paper-URL

2605.16679

Lizenz

Apache 2.0

Zitat

@misc{chen2026chibenchaiagentsautomate,
title={CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?},
author={Haolin Chen and Deon Metelski and Leon Qi and Tao Xia and Joonyul Lee and Steve Brown and Kevin Riley and Frank Wang and T. Y. Alvin Liu and Hank Capps MD and Zeyu Tang and Xiangchen Song and Lingjing Kong and Fan Feng and Tianyi Zeng and Zhiwei Liu and Zixian Ma and Hang Jiang and Fangli Geng and Yuan Yuan and Chenyu You and Qingsong Wen and Hua Wei and Yanjie Fu and Yue Zhao and Carl Yang and Biwei Huang and Kun Zhang and Caiming Xiong and Sanmi Koyejo and Eric P. Xing and Philip S. Yu and Weiran Yao},
year={2026},
eprint={2605.16679},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2605.16679},
}

Dieser Datensatz wurde von Community-Nutzern beigesteuert und dient ausschließlich Bildungs- und Informationszwecken. Falls Inhalte eine Urheberrechtsverletzung darstellen, kontaktieren Sie uns bitte unter [email protected] zur umgehenden Prüfung und Entfernung.

Zugehörige Datensätze

Globaler Klima- Und Energiewandel 2000 – 2026 Globaler Klima- Und Energiedatensatz

vor 12 Tagen

FigureBench-Benchmark-Datensatz Zur Generierung Wissenschaftlicher Illustrationen

vor 21 Tagen

TACK Targeted Chimera Knowledge Base Dataset

vor einem Monat

EAVSD E-Commerce-Werbevideo-Storyboard-Datensatz

vor einem Monat

DeepCrack-Datensatz Zur Erkennung Von Infrastrukturrissen

vor einem Monat

ViMU-Datensatz Zum Verständnis Von Videometaphern

vor einem Monat

MemLens Multimodal Long Context Benchmark-Datensatz

vor einem Monat

VisCoR-55K Visual Inference Dataset

vor 2 Monaten

MathNet Multimodaler Mathematischer Benchmark-Datensatz Für Inferenz

vor 2 Monaten

Claw-Eval Real-World Benchmark Dataset

vor 2 Monaten

Datensatz Zur Klassifizierung Von Augenkrankheiten Im Fundus

vor 2 Monaten

Datensatz Zur Fernerkennung Von Waldbränden Und Rauch

vor 2 Monaten

Brustkrebs: Multimodaler Fusionsdatensatz

vor 2 Monaten

QCalEval Quantenkalibrierungsdiagramm – Verständnisdatensatz

vor 2 Monaten

RSRCC-Benchmark-Datensatz Zur Fernerkundung Von Flächenveränderungen

vor 22 Tagen

World Model Bench-Datensatz

vor 3 Monaten

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Diesen Datensatz verwenden Auf Discord diskutieren

Datum

vor 2 Monaten

Paper-URL

2605.16679

Lizenz

Apache 2.0

Zitat

@misc{chen2026chibenchaiagentsautomate,
title={CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?},
author={Haolin Chen and Deon Metelski and Leon Qi and Tao Xia and Joonyul Lee and Steve Brown and Kevin Riley and Frank Wang and T. Y. Alvin Liu and Hank Capps MD and Zeyu Tang and Xiangchen Song and Lingjing Kong and Fan Feng and Tianyi Zeng and Zhiwei Liu and Zixian Ma and Hang Jiang and Fangli Geng and Yuan Yuan and Chenyu You and Qingsong Wen and Hua Wei and Yanjie Fu and Yue Zhao and Carl Yang and Biwei Huang and Kun Zhang and Caiming Xiong and Sanmi Koyejo and Eric P. Xing and Philip S. Yu and Weiran Yao},
year={2026},
eprint={2605.16679},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2605.16679},
}

vor 3 Monaten

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

chi-bench Medical Intelligent Agent Benchmark Evaluation Dataset

Zitat

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

chi-bench Medical Intelligent Agent Benchmark Evaluation Dataset

Zitat

Zugehörige Datensätze

Globaler Klima- Und Energiewandel 2000 – 2026 Globaler Klima- Und Energiedatensatz

MAKIEVAL Mehrsprachiger Datensatz Zur Bewertung Kulturellen Wissens

Wörtliche Spannen Abfragebedingungs-Evidenz-Extraktionsdatensatz

RHELM-Datensatz Zur Langzeitgedächtnisbewertung

SAM 3D Artist Objects 3D-Objektrekonstruktionsdatensatz

FigureBench-Benchmark-Datensatz Zur Generierung Wissenschaftlicher Illustrationen

TACK Targeted Chimera Knowledge Base Dataset

EAVSD E-Commerce-Werbevideo-Storyboard-Datensatz

DeepCrack-Datensatz Zur Erkennung Von Infrastrukturrissen

ViMU-Datensatz Zum Verständnis Von Videometaphern

MemLens Multimodal Long Context Benchmark-Datensatz

VisCoR-55K Visual Inference Dataset

MathNet Multimodaler Mathematischer Benchmark-Datensatz Für Inferenz

Claw-Eval Real-World Benchmark Dataset

Datensatz Zur Klassifizierung Von Augenkrankheiten Im Fundus

Datensatz Zur Fernerkennung Von Waldbränden Und Rauch

Brustkrebs: Multimodaler Fusionsdatensatz

QCalEval Quantenkalibrierungsdiagramm – Verständnisdatensatz

RSRCC-Benchmark-Datensatz Zur Fernerkundung Von Flächenveränderungen

World Model Bench-Datensatz

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

chi-bench Medical Intelligent Agent Benchmark Evaluation Dataset

Zitat

Zugehörige Datensätze

Globaler Klima- Und Energiewandel 2000 – 2026 Globaler Klima- Und Energiedatensatz

MAKIEVAL Mehrsprachiger Datensatz Zur Bewertung Kulturellen Wissens

Wörtliche Spannen Abfragebedingungs-Evidenz-Extraktionsdatensatz

RHELM-Datensatz Zur Langzeitgedächtnisbewertung

SAM 3D Artist Objects 3D-Objektrekonstruktionsdatensatz

FigureBench-Benchmark-Datensatz Zur Generierung Wissenschaftlicher Illustrationen

TACK Targeted Chimera Knowledge Base Dataset

EAVSD E-Commerce-Werbevideo-Storyboard-Datensatz

DeepCrack-Datensatz Zur Erkennung Von Infrastrukturrissen

ViMU-Datensatz Zum Verständnis Von Videometaphern

MemLens Multimodal Long Context Benchmark-Datensatz

VisCoR-55K Visual Inference Dataset

MathNet Multimodaler Mathematischer Benchmark-Datensatz Für Inferenz

Claw-Eval Real-World Benchmark Dataset

Datensatz Zur Klassifizierung Von Augenkrankheiten Im Fundus

Datensatz Zur Fernerkennung Von Waldbränden Und Rauch

Brustkrebs: Multimodaler Fusionsdatensatz

QCalEval Quantenkalibrierungsdiagramm – Verständnisdatensatz

RSRCC-Benchmark-Datensatz Zur Fernerkundung Von Flächenveränderungen

World Model Bench-Datensatz

KI mit KI entwickeln

HyperAI Newsletters

Zugehörige Datensätze

Globaler Klima- Und Energiewandel 2000 – 2026 Globaler Klima- Und Energiedatensatz

MAKIEVAL Mehrsprachiger Datensatz Zur Bewertung Kulturellen Wissens

Wörtliche Spannen Abfragebedingungs-Evidenz-Extraktionsdatensatz

RHELM-Datensatz Zur Langzeitgedächtnisbewertung

SAM 3D Artist Objects 3D-Objektrekonstruktionsdatensatz

FigureBench-Benchmark-Datensatz Zur Generierung Wissenschaftlicher Illustrationen

TACK Targeted Chimera Knowledge Base Dataset

EAVSD E-Commerce-Werbevideo-Storyboard-Datensatz

DeepCrack-Datensatz Zur Erkennung Von Infrastrukturrissen

ViMU-Datensatz Zum Verständnis Von Videometaphern

MemLens Multimodal Long Context Benchmark-Datensatz

VisCoR-55K Visual Inference Dataset

MathNet Multimodaler Mathematischer Benchmark-Datensatz Für Inferenz

Claw-Eval Real-World Benchmark Dataset

Datensatz Zur Klassifizierung Von Augenkrankheiten Im Fundus

Datensatz Zur Fernerkennung Von Waldbränden Und Rauch

Brustkrebs: Multimodaler Fusionsdatensatz

QCalEval Quantenkalibrierungsdiagramm – Verständnisdatensatz

RSRCC-Benchmark-Datensatz Zur Fernerkundung Von Flächenveränderungen

World Model Bench-Datensatz

Zugehörige Datensätze

Globaler Klima- Und Energiewandel 2000 – 2026 Globaler Klima- Und Energiedatensatz