6 个月前

多模态表征

计算机视觉

Philip Torr Hengshuang Zhao Luca Bertinetto Yansong Tang Zhao Yang

摘要

本文研究了基于指代表达的视频目标分割（Video Object Segmentation from Referring Expressions, VOSRE）问题。传统方法通常基于语言特征与视觉编码器顶层提取的视觉特征进行多模态融合，这种做法限制了模型在不同语义和空间粒度层次上对多模态输入的表征能力。为解决这一问题，本文提出一种端到端的分层交互网络（Hierarchical Interaction Network, HINet），用于VOSRE任务。该模型利用视觉编码器生成的特征金字塔，构建多层级的多模态特征表示，从而在不同层次上更灵活地刻画各类语言概念（如对象属性与类别）。此外，我们进一步从光流输入中提取运动目标信号，并通过运动门控机制将其作为补充线索，以增强目标区域的突出性并抑制背景干扰。与以往方法不同，该策略使模型能够在无需整段视频作为输入的前提下实现在线预测。尽管结构简洁，所提出的HINet在DAVIS-16、DAVIS-17和J-HMDB数据集上的VOSRE任务中均显著优于现有最先进方法，充分验证了其有效性与通用性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多模态表征

计算机视觉

Philip Torr Hengshuang Zhao Luca Bertinetto Yansong Tang Zhao Yang

摘要

本文研究了基于指代表达的视频目标分割（Video Object Segmentation from Referring Expressions, VOSRE）问题。传统方法通常基于语言特征与视觉编码器顶层提取的视觉特征进行多模态融合，这种做法限制了模型在不同语义和空间粒度层次上对多模态输入的表征能力。为解决这一问题，本文提出一种端到端的分层交互网络（Hierarchical Interaction Network, HINet），用于VOSRE任务。该模型利用视觉编码器生成的特征金字塔，构建多层级的多模态特征表示，从而在不同层次上更灵活地刻画各类语言概念（如对象属性与类别）。此外，我们进一步从光流输入中提取运动目标信号，并通过运动门控机制将其作为补充线索，以增强目标区域的突出性并抑制背景干扰。与以往方法不同，该策略使模型能够在无需整段视频作为输入的前提下实现在线预测。尽管结构简洁，所提出的HINet在DAVIS-16、DAVIS-17和J-HMDB数据集上的VOSRE任务中均显著优于现有最先进方法，充分验证了其有效性与通用性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供