8 个月前

计算机视觉

Huan Ren¹, Wenfei Yang¹, Tianzhu Zhang¹,², Yongdong Zhang¹

摘要

弱监督时序动作定位的目标是在训练过程中仅使用视频级别的类别标签来定位和识别未剪辑视频中的动作。由于缺乏实例级别的注释，大多数现有方法遵循基于片段的多实例学习（S-MIL）框架，其中片段的预测由视频的标签进行监督。然而，训练阶段获取片段级别分数的目标与测试阶段获取提案级别分数的目标不一致，导致结果次优。为了解决这一问题，我们提出了一种新颖的基于提案的多实例学习（P-MIL）框架，在训练和测试阶段直接对候选提案进行分类，该框架包括三个关键设计：1) 一个周边对比特征提取模块，通过考虑周边对比信息来抑制判别力较弱的短提案；2) 一个提案完整性评估模块，在完整性伪标签的指导下抑制低质量提案；3) 一个实例级别排名一致性损失，通过利用RGB和FLOW模态的互补性实现鲁棒检测。在两个具有挑战性的基准数据集THUMOS14和ActivityNet上的大量实验结果证明了我们方法的优越性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

Huan Ren¹, Wenfei Yang¹, Tianzhu Zhang¹,², Yongdong Zhang¹

摘要

弱监督时序动作定位的目标是在训练过程中仅使用视频级别的类别标签来定位和识别未剪辑视频中的动作。由于缺乏实例级别的注释，大多数现有方法遵循基于片段的多实例学习（S-MIL）框架，其中片段的预测由视频的标签进行监督。然而，训练阶段获取片段级别分数的目标与测试阶段获取提案级别分数的目标不一致，导致结果次优。为了解决这一问题，我们提出了一种新颖的基于提案的多实例学习（P-MIL）框架，在训练和测试阶段直接对候选提案进行分类，该框架包括三个关键设计：1) 一个周边对比特征提取模块，通过考虑周边对比信息来抑制判别力较弱的短提案；2) 一个提案完整性评估模块，在完整性伪标签的指导下抑制低质量提案；3) 一个实例级别排名一致性损失，通过利用RGB和FLOW模态的互补性实现鲁棒检测。在两个具有挑战性的基准数据集THUMOS14和ActivityNet上的大量实验结果证明了我们方法的优越性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供