HyperAIHyperAI

Command Palette

Search for a command to run...

基于帧间通信Transformer的视频实例分割

Sukjun Hwang Miran Heo Seoung Wug Oh Seon Joo Kim

摘要

我们提出了一种基于Transformer的新型端到端视频实例分割(Video Instance Segmentation, VIS)解决方案。近年来,基于片段(per-clip)的处理范式因其能够利用多帧间的丰富信息,在性能上已超越传统的逐帧(per-frame)方法。然而,先前的基于片段模型为实现帧间通信,往往需要消耗大量计算资源与内存,限制了其实际应用。为此,本文提出帧间通信Transformer(Inter-frame Communication Transformers, IFC),通过高效编码输入片段内的上下文信息,显著降低了帧间信息传递的开销。具体而言,我们引入简洁的记忆令牌(memory tokens)作为信息传递与每帧场景摘要的载体。各帧特征通过精确编码的记忆令牌之间进行信息交互,从而实现特征的增强与跨帧关联。我们在最新的基准数据集上验证了所提方法,取得了当前最优的性能表现(在YouTube-VIS 2019验证集上达到44.6的平均精度AP,采用离线推理模式),同时具备极高的运行效率(达到89.4 FPS)。此外,该方法还可拓展应用于近在线推理(near-online inference),实现在仅引入微小延迟的前提下对视频进行实时处理。相关代码将对外公开。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供