6 个月前

计算机视觉

Pilhyeon Lee Youngjung Uh Hyeran Byun

摘要

弱监督时序动作定位是一个极具挑战性的问题，因为在训练阶段并未提供逐帧标签，仅依赖视频级别的标签作为唯一线索——即判断每段视频是否包含目标动作帧。以往的方法通常通过聚合帧级别的分类得分来生成视频级别的预测，并基于视频级别的动作标签进行学习。然而，这种建模方式存在局限性：为了准确预测视频级别的标签，模型不得不将背景帧错误地分类为动作类别，从而未能充分反映实际问题的本质。本文提出了一种名为背景抑制网络（Background Suppression Network, BaS-Net）的新方法，该网络引入了一个专门的背景辅助类别，并采用双分支共享权重的架构，配合非对称训练策略。这一设计使 BaS-Net 能够有效抑制来自背景帧的激活响应，从而显著提升动作定位的准确性。大量实验结果表明，BaS-Net 在最主流的两个基准数据集——THUMOS'14 和 ActivityNet 上均表现出色，优于当前最先进的方法。本文的代码与训练好的模型已开源，地址为：https://github.com/Pilhyeon/BaSNet-pytorch。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Pilhyeon Lee Youngjung Uh Hyeran Byun

摘要

弱监督时序动作定位是一个极具挑战性的问题，因为在训练阶段并未提供逐帧标签，仅依赖视频级别的标签作为唯一线索——即判断每段视频是否包含目标动作帧。以往的方法通常通过聚合帧级别的分类得分来生成视频级别的预测，并基于视频级别的动作标签进行学习。然而，这种建模方式存在局限性：为了准确预测视频级别的标签，模型不得不将背景帧错误地分类为动作类别，从而未能充分反映实际问题的本质。本文提出了一种名为背景抑制网络（Background Suppression Network, BaS-Net）的新方法，该网络引入了一个专门的背景辅助类别，并采用双分支共享权重的架构，配合非对称训练策略。这一设计使 BaS-Net 能够有效抑制来自背景帧的激活响应，从而显著提升动作定位的准确性。大量实验结果表明，BaS-Net 在最主流的两个基准数据集——THUMOS'14 和 ActivityNet 上均表现出色，优于当前最先进的方法。本文的代码与训练好的模型已开源，地址为：https://github.com/Pilhyeon/BaSNet-pytorch。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供