6 个月前

计算机视觉

Zhengkai Jiang Yu Liu Ceyuan Yang Jihao Liu Peng Gao Qian Zhang Shiming Xiang Chunhong Pan

摘要

将现有的基于图像的目标检测器迁移至视频领域具有挑战性，因为视频帧的质量常受部分遮挡、罕见姿态和运动模糊等因素影响而下降。以往的方法通常利用光流扭曲（optical flow-warping）在视频帧之间传播和聚合特征，但直接将图像级光流应用于高层特征，可能难以建立准确的空间对应关系。为此，本文提出一种新型模块——可学习时空采样（Learnable Spatio-Temporal Sampling, LSTS），用于精确学习相邻帧特征之间的语义级对应关系。该模块首先随机初始化采样位置，随后通过迭代优化，在检测监督信号的逐步引导下，不断调整以获得更优的空间对应关系。此外，本文还引入了稀疏递归特征更新（Sparsely Recursive Feature Updating, SRFU）模块与密集特征聚合（Dense Feature Aggregation, DFA）模块，分别用于建模时序关系和增强单帧特征。在不依赖复杂附加组件的前提下，该方法在ImageNet VID数据集上取得了当前最优的性能表现，同时具备更低的计算复杂度和实时推理速度。代码将公开于：https://github.com/jiangzhengkai/LSTS。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Zhengkai Jiang Yu Liu Ceyuan Yang Jihao Liu Peng Gao Qian Zhang Shiming Xiang Chunhong Pan

摘要

将现有的基于图像的目标检测器迁移至视频领域具有挑战性，因为视频帧的质量常受部分遮挡、罕见姿态和运动模糊等因素影响而下降。以往的方法通常利用光流扭曲（optical flow-warping）在视频帧之间传播和聚合特征，但直接将图像级光流应用于高层特征，可能难以建立准确的空间对应关系。为此，本文提出一种新型模块——可学习时空采样（Learnable Spatio-Temporal Sampling, LSTS），用于精确学习相邻帧特征之间的语义级对应关系。该模块首先随机初始化采样位置，随后通过迭代优化，在检测监督信号的逐步引导下，不断调整以获得更优的空间对应关系。此外，本文还引入了稀疏递归特征更新（Sparsely Recursive Feature Updating, SRFU）模块与密集特征聚合（Dense Feature Aggregation, DFA）模块，分别用于建模时序关系和增强单帧特征。在不依赖复杂附加组件的前提下，该方法在ImageNet VID数据集上取得了当前最优的性能表现，同时具备更低的计算复杂度和实时推理速度。代码将公开于：https://github.com/jiangzhengkai/LSTS。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

高效视频目标检测中的注意力位置学习 | 论文 | HyperAI超神经