2 个月前

Video K-Net:一种简单、强大且统一的视频分割基线方法

Xiangtai Li; Wenwei Zhang; Jiangmiao Pang; Kai Chen; Guangliang Cheng; Yunhai Tong; Chen Change Loy
Video K-Net:一种简单、强大且统一的视频分割基线方法
摘要

本文介绍了Video K-Net,这是一种简单、强大且统一的全端到端视频全景分割框架。该方法基于K-Net,后者通过一组可学习的内核实现了图像分割的统一。我们观察到,K-Net中的这些可学习内核能够自然地在视频帧之间关联相同的实例,因为它们编码了对象的外观和上下文。受此观察启发,Video K-Net学会了通过简单的基于内核的外观建模和跨时间的内核交互,同时在视频中分割和跟踪“物体”(things)和“背景”(stuff)。尽管其设计简单,但Video K-Net在Citscapes-VPS、KITTI-STEP和VIPSeg数据集上取得了最先进的视频全景分割结果,无需复杂的附加技术。特别是在KITTI-STEP数据集上,该方法相比之前的方法相对提升了近12%的效果。在VIPSeg数据集上,Video K-Net相对提升了近15%的效果,并达到了39.8%的VPQ(视频全景质量)指标。我们还在视频语义分割任务上验证了其泛化能力,在VSPW数据集上将多个基线模型提升了2%的效果。此外,我们将K-Net扩展到了片段级别的视频框架中进行视频实例分割,在YouTube-2019验证集上分别使用ResNet50主干网络获得了40.5%的mAP(平均精度均值),以及使用Swin-base主干网络获得了54.1%的mAP。我们希望这一简单而有效的方法能够在统一的视频分割设计中成为新的、灵活的基准模型。代码和模型均已发布在https://github.com/lxtGH/Video-K-Net。

Video K-Net:一种简单、强大且统一的视频分割基线方法 | 最新论文 | HyperAI超神经