8 个月前

计算机视觉

计算机视觉

Stéphane Vujasinović Sebastian Bullinger Stefan Becker Norbert Scherer-Negenborn Michael Arens Rainer Stiefelhagen

摘要

我们提出了一种名为READMem（鲁棒嵌入关联以支持多样化记忆）的模块化框架，专门用于处理无约束视频的半自动视频对象分割（sVOS）方法。当前的sVOS研究通常在一个不断扩展的记忆库中聚合视频帧，这在长期应用中对硬件资源有很高的需求。为了减少内存需求并防止相邻帧信息导致的近似对象重复，先前的方法引入了一个超参数来控制可存储帧的频率。然而，该参数需要根据具体的视频属性（如外观变化的速度和视频长度）进行调整，并且泛化能力较差。相反，我们的方法仅在新帧的嵌入能够增加记忆内容多样性的情况下将其整合到记忆库中。此外，我们在更新过程中提出了一个鲁棒的嵌入关联机制，将存储在记忆库中的嵌入与查询嵌入进行关联。这种方法避免了冗余数据的累积，从而允许我们限制内存大小，并防止在长视频中出现极端的内存需求。我们将READMem扩展到了流行的sVOS基线模型上，这些模型之前在长视频上的表现有限。我们的方法在长时间视频数据集（LV1）上取得了具有竞争力的结果，同时不会影响短序列的表现。我们的代码已公开发布。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

计算机视觉

Stéphane Vujasinović Sebastian Bullinger Stefan Becker Norbert Scherer-Negenborn Michael Arens Rainer Stiefelhagen

摘要

我们提出了一种名为READMem（鲁棒嵌入关联以支持多样化记忆）的模块化框架，专门用于处理无约束视频的半自动视频对象分割（sVOS）方法。当前的sVOS研究通常在一个不断扩展的记忆库中聚合视频帧，这在长期应用中对硬件资源有很高的需求。为了减少内存需求并防止相邻帧信息导致的近似对象重复，先前的方法引入了一个超参数来控制可存储帧的频率。然而，该参数需要根据具体的视频属性（如外观变化的速度和视频长度）进行调整，并且泛化能力较差。相反，我们的方法仅在新帧的嵌入能够增加记忆内容多样性的情况下将其整合到记忆库中。此外，我们在更新过程中提出了一个鲁棒的嵌入关联机制，将存储在记忆库中的嵌入与查询嵌入进行关联。这种方法避免了冗余数据的累积，从而允许我们限制内存大小，并防止在长视频中出现极端的内存需求。我们将READMem扩展到了流行的sVOS基线模型上，这些模型之前在长视频上的表现有限。我们的方法在长时间视频数据集（LV1）上取得了具有竞争力的结果，同时不会影响短序列的表现。我们的代码已公开发布。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供