8 个月前

多模态表征

计算机视觉

计算机视觉

Seunggu Kang WonJun Moon Euiyeon Kim Jae-Pil Heo *

摘要

零样本目标计数（Zero-Shot Object Counting, ZSOC）旨在在查询图像中对任意类别的实例进行计数，而无需人工标注的示例。为了应对ZSOC，先前的研究提出了一种两阶段流程：发现示例和计数。然而，这种顺序设计的两阶段过程仍然存在错误传播的脆弱性问题。在这项工作中，提出了一种单阶段基线模型——视觉语言基线（Visual-Language Baseline, VLBase），该模型探索了CLIP中语义块嵌入之间的隐式关联。随后，通过引入三个模块来调整VLBase以适应目标计数任务，将其扩展为视觉语言计数器（Visual-language Counter, VLCounter）。首先，在图像编码器中引入了语义条件提示调优（Semantic-conditioned Prompt Tuning, SPT），以获得突出目标的表示。其次，使用可学习仿射变换（Learnable Affine Transformation, LAT）将语义块相似度图转换为适合计数任务的形式。最后，通过分段感知跳跃连接（Segment-aware Skip Connection, SaSC）将逐层编码的特征传递到解码器，以保持对未见过类别的一般化能力。通过在FSC147、CARPK和PUCPR+数据集上的大量实验，展示了端到端框架VLCounter的优势。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多模态表征

计算机视觉

计算机视觉

Seunggu Kang WonJun Moon Euiyeon Kim Jae-Pil Heo *

摘要

零样本目标计数（Zero-Shot Object Counting, ZSOC）旨在在查询图像中对任意类别的实例进行计数，而无需人工标注的示例。为了应对ZSOC，先前的研究提出了一种两阶段流程：发现示例和计数。然而，这种顺序设计的两阶段过程仍然存在错误传播的脆弱性问题。在这项工作中，提出了一种单阶段基线模型——视觉语言基线（Visual-Language Baseline, VLBase），该模型探索了CLIP中语义块嵌入之间的隐式关联。随后，通过引入三个模块来调整VLBase以适应目标计数任务，将其扩展为视觉语言计数器（Visual-language Counter, VLCounter）。首先，在图像编码器中引入了语义条件提示调优（Semantic-conditioned Prompt Tuning, SPT），以获得突出目标的表示。其次，使用可学习仿射变换（Learnable Affine Transformation, LAT）将语义块相似度图转换为适合计数任务的形式。最后，通过分段感知跳跃连接（Segment-aware Skip Connection, SaSC）将逐层编码的特征传递到解码器，以保持对未见过类别的一般化能力。通过在FSC147、CARPK和PUCPR+数据集上的大量实验，展示了端到端框架VLCounter的优势。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供