11 天前

开放世界文本指定物体计数

Niki Amini-Naieni, Kiana Amini-Naieni, Tengda Han, Andrew Zisserman
开放世界文本指定物体计数
摘要

我们的目标是实现图像中的开放世界物体计数,其中目标物体类别由文本描述指定。为此,我们提出了一种名为CounTX的模型,该模型为无类别依赖(class-agnostic)的单阶段架构,基于预训练的联合文本-图像表征,采用Transformer解码器作为计数头。CounTX仅需输入一张图像和目标物体类别的文本描述,即可准确统计任意类别物体的实例数量,并支持端到端训练。除该模型外,我们还做出以下贡献:(i)我们在开放世界物体计数任务上对CounTX与现有方法进行了对比,结果表明,在使用文本描述指定任务的所有方法中,我们的方法在FSC-147基准测试的所有评估指标上均超越了当前最优水平;(ii)我们提出了并发布了FSC-147-D,这是FSC-147数据集的增强版本,新增了详细的文本描述,使得物体类别能够以比简单类别名称更丰富的语言进行描述。FSC-147-D数据集及代码已公开,访问地址为:https://www.robots.ox.ac.uk/~vgg/research/countx。

开放世界文本指定物体计数 | 最新论文 | HyperAI超神经