6 个月前

摘要

近年来，视频实例分割（Video Instance Segmentation, VIS）主要得益于离线模型的快速发展，而在线模型则因性能相对较低，逐渐受到较少关注。然而，在处理长视频序列和持续输入视频方面，在线方法具有天然优势，而离线模型受限于计算资源，难以胜任此类任务。因此，若能实现在线模型在性能上与离线模型相当甚至超越，将具有重要意义。通过对现有在线与离线模型的深入分析，我们发现性能差距的主要根源在于：在特征空间中，不同实例之间外观相似，导致帧间关联过程容易产生错误。针对这一问题，我们提出一种基于对比学习的在线框架，能够学习更具判别性的实例嵌入用于关联，并充分挖掘历史信息以提升分割结果的稳定性。尽管方法设计简洁，其在三个主流基准测试上均显著超越了所有现有在线与离线方法。具体而言，在YouTube-VIS 2019数据集上，我们取得了49.5的AP值，相比此前最优的在线方法和离线方法，分别提升了13.2 AP和2.1 AP。在更具挑战性的OVIS数据集上（该数据集存在显著的密集遮挡与重叠），我们实现了30.2的AP，较此前最优方法提升14.8 AP。该方法在2022年CVPR举办的第四届大规模视频目标分割挑战赛（Large-scale Video Object Segmentation Challenge, LVOS Challenge）的视频实例分割赛道中荣获第一名。我们期望本方法所展现的简洁性与高效性，以及对当前VIS方法本质问题的深入洞察，能够为未来视频实例分割模型的研究提供新的思路与启发。

源 PDF