HyperAIHyperAI

Command Palette

Search for a command to run...

Colon-Bench:一种用于全周期结肠镜视频中可扩展致密病灶标注的智能体工作流

Abdullah Hamdi Changchun Yang Xin Gao

摘要

结肠镜早期筛查对于结直肠癌的预防至关重要,然而,由于缺乏高密度标注的长序列视频数据集,开发适用于该领域的鲁棒性人工智能(AI)系统面临巨大挑战。现有数据集主要集中于单类别息肉检测,缺乏评估现代多模态大语言模型(MLLMs)所需的空间、时间及语言等多维度丰富标注。为填补这一关键空白,我们提出了 Colon-Bench,该数据集通过一种新颖的多阶段 Agent 工作流生成。我们的 Pipeline 无缝集成了时序提议生成、边界框跟踪、AI 驱动的视觉确认以及人机协同(human-in-the-loop)审核机制,从而实现了对全流程视频的可扩展标注。由此构建的验证基准在规模上前所未有,涵盖 528 段视频、14 种不同的病灶类别(包括息肉、溃疡和出血等)、超过 300,000 个边界框、213,000 个分割掩码以及 133,000 个单词的临床描述。我们利用 Colon-Bench 对最先进(SOTA)的 MLLMs 在病灶分类、开放词汇视频对象分割(OV-VOS)以及视频视觉问答(VQA)任务上进行了严格评估。实验结果显示,与 SAM-3 相比,MLLMs 在医疗领域的定位性能表现出令人惊讶的高水平。最后,通过分析 MLLMs 在 VQA 任务中的常见错误,我们提出了一种新颖的“结肠技能(colon-skill)”提示(prompting)策略,使大多数 MLLMs 的零样本(zero-shot)性能提升了最高达 9.7%。该数据集及代码已公开,访问地址为:https://abdullahamdi.com/colon-bench

一句话总结

阿卜杜拉国王科技大学的研究人员推出了 Colon-Bench,这是一个通过新颖的多阶段智能体工作流创建的综合基准,该工作流通过为 14 种病变类别提供密集的空间时间标注,克服了以往数据稀缺的问题。该资源使得对多模态大语言模型在复杂结肠镜检查任务上的评估更加严谨,并证明了一种新的结肠技能提示策略无需额外训练即可显著提升零样本性能。

主要贡献

  • 本文介绍了 Colon-Bench,这是一个用于评估多模态大语言模型在全流程结肠镜检查视频上表现的综合基准。结果表明,这些模型在病变检测任务中比 Endo-CLIP 等专用基线模型高出 30%。
  • 提出了一种两阶段智能体工作流,通过提取跨模型错误模式来合成结构化的 Colon-Skill 提示,从而在无需训练的情况下将医疗视觉问答(VQA)任务的性能提升高达 9.7%。
  • 大量实验表明,利用多帧视频的时间上下文相比单帧输入显著提升了分割质量和 VQA 准确率;结果显示,当上下文从一帧扩展到七帧时,平均交并比(IoU)从 43.1% 提升至 54.4%。

引言

未提供原文摘要。请提供研究论文的摘要或正文片段,以便我生成包含所需技术背景、局限性和贡献的背景总结。

数据集

Colon-Bench 数据集概览

作者推出了 Colon-Bench,这是一个旨在评估多模态大语言模型(MLLMs)在全流程结肠镜检查视频上表现的综合多任务基准。该数据集通过利用新颖的智能体工作流,解决了密集标注的长序列医疗视频数据稀缺的问题。

  • 数据集构成与来源

    • 核心数据源自 REAL-COLON 数据集中的 60 个视频序列。
    • 最终精选的基准跨越 59 个序列中的 528 个已验证视频窗口,总计 464,035 帧(约 12.89 小时)。
    • 涵盖 14 种不同的病变类别,包括无蒂息肉、出血、溃疡和红斑病变,其分布呈长尾状,其中无蒂息肉最为常见。
    • 标注包括超过 30 万个边界框、21.3 万个分割掩码以及 13.3 万个经过验证的临床文本描述词。
  • 各子集的关键细节

    • 二分类:包含 790 个片段(518 个无病变和 272 个有病变),用于测试病变存在性检测。
    • 检测与分割:分别利用 272 个和 264 个有病变片段,提供每帧 61,538 个边界框和 57,550 个掩码。
    • 视觉问答(VQA):分为两个层级:
      • 提示式 VQA:在 499 个片段上提出 1,485 个五选一问题,片段中包含确认病变的边界框叠加层。
      • 无提示 VQA:在 918 个片段上提出 2,740 个问题,使用原始帧,包括非病变窗口以测试开放式推理能力。
  • 数据使用与处理策略

    • 智能体工作流:作者采用多阶段流程,首先使用视觉 - 语言模型(Gemini-2.5-flash-lite)识别 1,325 个候选病变窗口。
    • 过滤与验证:后续智能体执行验证过滤、使用 EdgeTAM 进行边界框跟踪,以及 AI 驱动的视觉确认(使用 Gemini-3 变体),以剔除假阳性。
    • 人机回环:外科医生的最终审查仅拒绝了 69 个窗口(占提交窗口的 11.6%),确保了高质量的空间和文本标签。
    • 去偏:为防止 VQA 中出现仅依赖文本的捷径,作者应用了包含对抗性干扰项再生和盲文压力测试的两阶段去偏过程。
  • 元数据与标注构建

    • 空间标注:该流程生成了密集跟踪数据,建立了首个用于结肠镜检查的开放词汇视频对象分割(OV-VOS)基准。
    • 文本描述:生成并验证了自由形式的临床描述,每个窗口平均 252.4 个词,这些描述用于通过关键词匹配推导多标签病变类别。
    • 评估设置:该基准评估 MLLM 在病变分类、OV-VOS 和 VQA 方面的表现,利用 3 帧边界框检测来提示 EdgeTAM 跟踪器执行分割任务。

实验

  • Colon-Bench 实验表明,Gemini 3 Pro 和 Flash 等顶级 MLLM 在病变检测和分割方面优于专用模型,而 Seed 1.6 等开放权重模型尽管在某些家族模型在分类任务上表现挣扎,但整体表现依然强劲。
  • 消融研究证实,与单帧输入相比,利用视频片段的时间上下文显著提高了 VQA 准确率和分割质量,增加检测帧数能带来下游分割指标的稳步提升。
  • 提出的 Colon-Skill 框架验证了将提炼的领域知识注入提示中可增强高容量模型的 VQA 性能,而较小模型从这种额外上下文中获得的收益有限。
  • 标注流程的验证显示,验证过滤和跟踪阶段提供了最显著的精度提升,而人工审查则为最终数据集质量提供了边际但一致的优化。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供