HyperAIHyperAI

Command Palette

Search for a command to run...

空间特征校准与时间融合实现高效的一阶段视频实例分割

Minghan Li Shuai Li Lida Li Lei Zhang

摘要

当前的一阶段视频实例分割网络存在两大局限性:其一,卷积特征既未与锚框(anchor boxes)对齐,也未与真实标注框(ground-truth bounding boxes)对齐,导致掩码对空间位置的敏感性下降;其二,视频被直接划分为独立帧进行帧级实例分割,忽视了相邻帧之间的时序相关性。为解决上述问题,本文提出一种简单而有效的单阶段视频实例分割框架——STMask,该框架通过空间校准与时间融合机制实现性能提升。为实现特征与真实标注框的空间对齐,我们首先在真实标注框周围预测回归后的边界框,并从中提取特征用于帧级实例分割。为进一步挖掘视频帧间的时序相关性,我们引入一个时序融合模块,将每帧的实例掩码信息传递至其相邻帧,从而增强模型对运动模糊、部分遮挡以及异常物体与相机相对姿态等复杂场景的处理能力。在YouTube-VIS验证集上的实验结果表明,采用ResNet-50和ResNet-101作为主干网络的STMask分别取得了33.5%和36.8%的掩码平均精度(mask AP),同时在视频实例分割任务上分别达到28.6 FPS和23.4 FPS的推理速度。相关代码已开源,访问地址为:https://github.com/MinghanLi/STMask


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供