2 个月前

基于视觉记忆的视频对象分割学习

Pavel Tokmakov; Karteek Alahari; Cordelia Schmid
基于视觉记忆的视频对象分割学习
摘要

本文探讨了在无约束视频中分割移动物体的任务。我们引入了一种具有显式记忆模块的新型双流神经网络来实现这一目标。该网络的两个分支分别对视频序列中的空间特征和时间特征进行编码,而记忆模块则捕捉物体随时间的变化过程。通过一个卷积递归单元从少量训练视频序列中学习,构建了视频中的“视觉记忆”,即所有视频帧的联合表示。给定一帧视频作为输入,我们的方法根据所学的空间-时间特征以及特定于该视频的“视觉记忆”(无需任何手动标注的帧即可自动获取)为每个像素分配物体或背景标签。视觉记忆采用卷积门控递归单元实现,这使得空间信息能够在时间上进行传播。我们在DAVIS和Freiburg-Berkeley运动分割数据集这两个基准上对我们的方法进行了广泛的评估,并展示了最先进水平的结果。例如,我们的方法在DAVIS数据集上的表现比最佳方法高出近6%。此外,我们还提供了详尽的消融分析,以研究所提出的框架中每个组件的影响。

基于视觉记忆的视频对象分割学习 | 最新论文 | HyperAI超神经