HyperAIHyperAI

Command Palette

Search for a command to run...

高效视频目标检测中的注意力位置学习

Zhengkai Jiang Yu Liu Ceyuan Yang Jihao Liu Peng Gao Qian Zhang Shiming Xiang Chunhong Pan

摘要

将现有的基于图像的目标检测器迁移至视频领域具有挑战性,因为视频帧的质量常受部分遮挡、罕见姿态和运动模糊等因素影响而下降。以往的方法通常利用光流扭曲(optical flow-warping)在视频帧之间传播和聚合特征,但直接将图像级光流应用于高层特征,可能难以建立准确的空间对应关系。为此,本文提出一种新型模块——可学习时空采样(Learnable Spatio-Temporal Sampling, LSTS),用于精确学习相邻帧特征之间的语义级对应关系。该模块首先随机初始化采样位置,随后通过迭代优化,在检测监督信号的逐步引导下,不断调整以获得更优的空间对应关系。此外,本文还引入了稀疏递归特征更新(Sparsely Recursive Feature Updating, SRFU)模块与密集特征聚合(Dense Feature Aggregation, DFA)模块,分别用于建模时序关系和增强单帧特征。在不依赖复杂附加组件的前提下,该方法在ImageNet VID数据集上取得了当前最优的性能表现,同时具备更低的计算复杂度和实时推理速度。代码将公开于:https://github.com/jiangzhengkai/LSTS


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供