2 个月前

复杂视频场景中的实时以人为中心的分割

Yu, Ran ; Tian, Chenyu ; Xia, Weihao ; Zhao, Xinyuan ; Wang, Haoqian ; Yang, Yujiu
复杂视频场景中的实时以人为中心的分割
摘要

大多数现有的与“人类”相关的视频任务主要集中在显著人物的分割上,而忽略了视频中未指定的其他人。很少有研究关注在复杂视频中对所有人物(包括行人和其他状态的人物,如坐着、骑车或被遮挡的人)进行分割和跟踪。本文提出了一种新颖的框架,简称HVISNet,该框架基于单阶段检测器对给定视频中的所有人进行分割和跟踪。为了更好地评估复杂场景,我们提供了一个新的基准测试集,称为HVIS(人体视频实例分割),该数据集包含805个高分辨率视频中的1447个人体实例掩码,涵盖了多种场景。大量实验表明,所提出的HVISNet在实时推理速度(30帧/秒)下,在准确性方面优于现有最先进方法,特别是在复杂视频场景中表现尤为突出。我们还注意到,使用边界框中心来区分不同个体会严重降低分割精度,尤其是在严重遮挡的情况下。这种常见现象被称为模糊正样本问题。为了解决这一问题,我们提出了一种名为内中心采样(Inner Center Sampling)的机制来提高实例分割的准确性。这种即插即用的内中心采样机制可以集成到任何基于单阶段检测器的实例分割模型中以提升性能。特别是,在处理被遮挡的人物时,它能够使最先进方法的mAP指标提高4.1个百分点。代码和数据可在https://github.com/IIGROUP/HVISNet 获取。

复杂视频场景中的实时以人为中心的分割 | 最新论文 | HyperAI超神经