2 个月前

XMem:基于阿特金森-希夫林记忆模型的长期视频对象分割

Cheng, Ho Kei ; Schwing, Alexander G.
XMem:基于阿特金森-希夫林记忆模型的长期视频对象分割
摘要

我们介绍了XMem,一种受阿特金森-希夫林记忆模型启发的长视频对象分割架构,该架构采用了统一的特征记忆存储。以往的视频对象分割研究通常仅使用一种类型的特征记忆。对于超过一分钟的长视频,单一特征记忆模型在内存消耗和准确性之间存在紧密联系。相比之下,我们根据阿特金森-希夫林模型开发了一种架构,该架构集成了多个独立但深度连接的特征记忆存储:快速更新的感觉记忆、高分辨率的工作记忆以及紧凑且持久的长期记忆。关键在于,我们开发了一种记忆增强算法,该算法定期将活跃使用的工作记忆元素整合到长期记忆中,从而避免了内存爆炸并最小化了长期预测中的性能衰减。结合新的内存读取机制,XMem在长视频数据集上的表现远超现有最先进方法,在短视频数据集上也达到了与现有最先进方法(这些方法不适用于长视频)相当的水平。代码可在https://hkchengrex.github.io/XMem 获取。

XMem:基于阿特金森-希夫林记忆模型的长期视频对象分割 | 最新论文 | HyperAI超神经