HyperAIHyperAI

Command Palette

Search for a command to run...

BATMAN:运动-外观邻域空间中的双边注意力变换器用于视频目标分割

Ye Yu Jialin Yuan Gaurav Mittal Li Fuxin Mei Chen

摘要

视频对象分割(VOS)是视频理解的基础。基于Transformer的方法在半监督VOS中表现出显著的性能提升。然而,现有方法在分割视觉上相似且相互靠近的对象时仍面临挑战。本文提出了一种新颖的运动-外观邻域空间双边注意Transformer(BATMAN),用于半监督VOS。该方法通过一个创新的光流校准模块捕捉视频中的物体运动,该模块将分割掩码与光流估计融合,以提高物体内部的光流平滑度并减少物体边界处的噪声。经过校准的光流随后被应用于我们提出的新型双边注意机制中,该机制在考虑运动和外观的情况下计算查询帧和参考帧之间的对应关系。大量实验验证了BATMAN架构的有效性,其在四个流行的VOS基准测试中均超越了所有现有的最先进方法:Youtube-VOS 2019(85.0%)、Youtube-VOS 2018(85.3%)、DAVIS 2017 Val/Testdev(86.2%/82.2%)和DAVIS 2016(92.5%)。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
BATMAN:运动-外观邻域空间中的双边注意力变换器用于视频目标分割 | 论文 | HyperAI超神经