17 天前

Florence-2:推进多种视觉任务的统一表征

Bin Xiao, Haiping Wu, Weijian Xu, Xiyang Dai, Houdong Hu, Yumao Lu, Michael Zeng, Ce Liu, Lu Yuan
Florence-2:推进多种视觉任务的统一表征
摘要

我们提出Florence-2,一种新型视觉基础模型,采用统一的、基于提示(prompt-based)的表征方式,适用于多种计算机视觉及视觉-语言任务。尽管现有大型视觉模型在迁移学习方面表现优异,但在仅通过简单指令完成多样化任务方面仍存在局限,而这一能力本质上要求模型能够处理不同层次的空间结构与语义粒度的复杂性。Florence-2专为以文本提示作为任务指令而设计,能够生成以文本形式输出的高质量结果,涵盖图像描述、目标检测、视觉定位(grounding)以及图像分割等多种任务。这种多任务学习架构对大规模、高质量的标注数据提出了极高要求。为此,我们共同开发了FLD-5B数据集,该数据集包含1.26亿张图像上的54亿条全面视觉标注,采用自动化图像标注与模型迭代优化相结合的策略构建而成。在训练过程中,我们采用序列到序列(sequence-to-sequence)的架构来训练Florence-2,使其能够执行多样化且全面的视觉任务。在众多任务上的广泛评估表明,Florence-2具备前所未有的零样本(zero-shot)与微调能力,是当前最具竞争力的视觉基础模型之一。