Hi-SAM:结合分段任意模型进行层次文本分割

Segment Anything 模型(SAM)是一种在大规模数据集上预训练的深度视觉基础模型,它打破了通用分割的界限,激发了各种下游应用。本文介绍了 Hi-SAM,一种利用 SAM 实现层次文本分割的统一模型。Hi-SAM 在四个层次上的分割表现优异,包括像素级文本、单词、文本行和段落,并且能够实现布局分析。具体而言,我们首先通过参数高效的微调方法将 SAM 转变为高质量的像素级文本分割(TS)模型。然后,我们使用该 TS 模型以半自动的方式迭代生成 HierText 数据集中四个文本层次的像素级标签。接下来,基于这些完整的标签,我们在 TS 架构的基础上设计了一个定制化的层次掩码解码器,构建了端到端可训练的 Hi-SAM 模型。在推理过程中,Hi-SAM 提供了自动掩码生成(AMG)模式和可提示分割(PS)模式两种选择。在 AMG 模式下,Hi-SAM 首先生成像素级文本前景掩码,然后采样前景点进行层次文本掩码生成,并在此过程中实现布局分析。而在 PS 模式下,Hi-SAM 可以通过单点点击提供单词、文本行和段落的掩码。实验结果表明,我们的 TS 模型在像素级文本分割方面达到了最先进的性能:在 Total-Text 数据集上实现了 84.86% 的前景交并比(fgIOU),在 TextSeg 数据集上实现了 88.96% 的 fgIOU。此外,与之前专门用于联合层次检测和布局分析的方法相比,Hi-SAM 在 HierText 数据集上取得了显著改进:在文本行级别上提高了 4.73% 的 Panoptic Quality(PQ)和 5.39% 的 F1 分数,在段落级别的布局分析中分别提高了 5.49% 的 PQ 和 7.39% 的 F1 分数,并且仅需前者的 $\frac{1}{20}$ 训练轮次。代码已开源至 https://github.com/ymy-k/Hi-SAM。