
摘要
我们提出了一种基于Transformer的新型端到端视频实例分割(Video Instance Segmentation, VIS)解决方案。近年来,基于片段(per-clip)的处理范式因其能够利用多帧间的丰富信息,在性能上已超越传统的逐帧(per-frame)方法。然而,先前的基于片段模型为实现帧间通信,往往需要消耗大量计算资源与内存,限制了其实际应用。为此,本文提出帧间通信Transformer(Inter-frame Communication Transformers, IFC),通过高效编码输入片段内的上下文信息,显著降低了帧间信息传递的开销。具体而言,我们引入简洁的记忆令牌(memory tokens)作为信息传递与每帧场景摘要的载体。各帧特征通过精确编码的记忆令牌之间进行信息交互,从而实现特征的增强与跨帧关联。我们在最新的基准数据集上验证了所提方法,取得了当前最优的性能表现(在YouTube-VIS 2019验证集上达到44.6的平均精度AP,采用离线推理模式),同时具备极高的运行效率(达到89.4 FPS)。此外,该方法还可拓展应用于近在线推理(near-online inference),实现在仅引入微小延迟的前提下对视频进行实时处理。相关代码将对外公开。