17 天前

基于帧间通信Transformer的视频实例分割

Sukjun Hwang, Miran Heo, Seoung Wug Oh, Seon Joo Kim

摘要

我们提出了一种基于Transformer的新型端到端视频实例分割（Video Instance Segmentation, VIS）解决方案。近年来，基于片段（per-clip）的处理范式因其能够利用多帧间的丰富信息，在性能上已超越传统的逐帧（per-frame）方法。然而，先前的基于片段模型为实现帧间通信，往往需要消耗大量计算资源与内存，限制了其实际应用。为此，本文提出帧间通信Transformer（Inter-frame Communication Transformers, IFC），通过高效编码输入片段内的上下文信息，显著降低了帧间信息传递的开销。具体而言，我们引入简洁的记忆令牌（memory tokens）作为信息传递与每帧场景摘要的载体。各帧特征通过精确编码的记忆令牌之间进行信息交互，从而实现特征的增强与跨帧关联。我们在最新的基准数据集上验证了所提方法，取得了当前最优的性能表现（在YouTube-VIS 2019验证集上达到44.6的平均精度AP，采用离线推理模式），同时具备极高的运行效率（达到89.4 FPS）。此外，该方法还可拓展应用于近在线推理（near-online inference），实现在仅引入微小延迟的前提下对视频进行实时处理。相关代码将对外公开。