Command Palette
Search for a command to run...
Med-Banana-50K:用于文本引导的医学图像编辑的跨模态大规模数据集
Med-Banana-50K:用于文本引导的医学图像编辑的跨模态大规模数据集
Zhihui Chen Mengling Feng
Abstract
医学图像编辑已发展成为一项关键技术,在数据增强、模型可解释性、医学教育和治疗模拟等领域具有广泛的应用前景。然而,由于缺乏大规模、高质量且面向医学场景、符合严格解剖学与临床约束条件的公开数据集,该领域的发展受到了显著制约。为弥补这一空白,我们推出了 Med-Banana-50K,这是一个涵盖超过5万张经医学专家审校的图像编辑样本的综合性数据集,覆盖胸片、脑部MRI和眼底摄影,涉及23种疾病。每个样本均支持双向病灶编辑(添加与移除),其构建基于 Gemini-2.5-Flash-Image 模型,并以真实临床图像为基础。本数据集的核心优势在于其基于医学准则的质量控制流程:我们采用“大语言模型作为评判者”(LLM-as-Judge)的评估框架,评估标准包括指令遵循度、结构合理性、图像真实性以及保真度保持,并通过最多五轮迭代优化实现持续改进。此外,Med-Banana-50K 还包含约3.7万次编辑失败的尝试及其完整的评估日志,可为偏好学习与对齐研究提供支持。通过提供一个大规模、医学严谨且完整可追溯的资源,Med-Banana-50K 为开发与评估可靠的医学图像编辑系统奠定了关键基础。