8 个月前

多模态表征

计算机视觉

Tianming Liang Kun-Yu Lin Chaolei Tan Jianguo Zhang Wei-Shi Zheng Jian-Fang Hu

摘要

参考视频对象分割（RVOS）旨在根据文本描述对视频中的目标对象进行分割。尽管近年来取得了显著进展，但当前的RVOS模型在处理复杂对象描述时仍面临挑战，这主要是由于其有限的视频-语言理解能力。为了解决这一问题，我们提出了ReferDINO，这是一种端到端的RVOS模型，继承了预训练视觉定位基础模型的强大视觉-语言理解能力，并进一步具备了有效的时序理解和对象分割能力。在ReferDINO中，我们贡献了三项技术创新，以有效适应基础模型到RVOS任务：对象一致性时序增强器：利用预训练的对象-文本表示来增强时序理解和对象一致性；基于定位的可变形掩码解码器：整合文本和定位条件生成精确的对象掩码；置信度感知查询剪枝策略：在不牺牲性能的前提下显著提高对象解码效率。我们在五个公开的RVOS基准数据集上进行了广泛的实验，结果表明我们提出的ReferDINO显著优于现有的最先进方法。项目页面：https://isee-laboratory.github.io/ReferDINO

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多模态表征

计算机视觉

Tianming Liang Kun-Yu Lin Chaolei Tan Jianguo Zhang Wei-Shi Zheng Jian-Fang Hu

摘要

参考视频对象分割（RVOS）旨在根据文本描述对视频中的目标对象进行分割。尽管近年来取得了显著进展，但当前的RVOS模型在处理复杂对象描述时仍面临挑战，这主要是由于其有限的视频-语言理解能力。为了解决这一问题，我们提出了ReferDINO，这是一种端到端的RVOS模型，继承了预训练视觉定位基础模型的强大视觉-语言理解能力，并进一步具备了有效的时序理解和对象分割能力。在ReferDINO中，我们贡献了三项技术创新，以有效适应基础模型到RVOS任务：对象一致性时序增强器：利用预训练的对象-文本表示来增强时序理解和对象一致性；基于定位的可变形掩码解码器：整合文本和定位条件生成精确的对象掩码；置信度感知查询剪枝策略：在不牺牲性能的前提下显著提高对象解码效率。我们在五个公开的RVOS基准数据集上进行了广泛的实验，结果表明我们提出的ReferDINO显著优于现有的最先进方法。项目页面：https://isee-laboratory.github.io/ReferDINO

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供