17 天前

论在线模型在视频实例分割中的应用价值

Junfeng Wu, Qihao Liu, Yi Jiang, Song Bai, Alan Yuille, Xiang Bai
论在线模型在视频实例分割中的应用价值
摘要

近年来,视频实例分割(Video Instance Segmentation, VIS)主要得益于离线模型的快速发展,而在线模型则因性能相对较低,逐渐受到较少关注。然而,在处理长视频序列和持续输入视频方面,在线方法具有天然优势,而离线模型受限于计算资源,难以胜任此类任务。因此,若能实现在线模型在性能上与离线模型相当甚至超越,将具有重要意义。通过对现有在线与离线模型的深入分析,我们发现性能差距的主要根源在于:在特征空间中,不同实例之间外观相似,导致帧间关联过程容易产生错误。针对这一问题,我们提出一种基于对比学习的在线框架,能够学习更具判别性的实例嵌入用于关联,并充分挖掘历史信息以提升分割结果的稳定性。尽管方法设计简洁,其在三个主流基准测试上均显著超越了所有现有在线与离线方法。具体而言,在YouTube-VIS 2019数据集上,我们取得了49.5的AP值,相比此前最优的在线方法和离线方法,分别提升了13.2 AP和2.1 AP。在更具挑战性的OVIS数据集上(该数据集存在显著的密集遮挡与重叠),我们实现了30.2的AP,较此前最优方法提升14.8 AP。该方法在2022年CVPR举办的第四届大规模视频目标分割挑战赛(Large-scale Video Object Segmentation Challenge, LVOS Challenge)的视频实例分割赛道中荣获第一名。我们期望本方法所展现的简洁性与高效性,以及对当前VIS方法本质问题的深入洞察,能够为未来视频实例分割模型的研究提供新的思路与启发。