6 个月前

多模态表征

计算机视觉

Max Bain Arsha Nagrani Gül Varol Andrew Zisserman

摘要

本文的目标是将图像-文本模型适配于长视频检索任务。近期研究通过采用CLIP模型，在视频检索任务中取得了当前最优的性能，本质上是借助图像-文本的表征能力来提升视频相关任务的表现。然而，在学习时间维度上的聚合机制方面，现有方法尚未取得显著突破，其性能仍难以超越直接对CLIP每帧提取的图像级表征进行均值池化（mean-pooling）的结果。我们发现，通过查询评分（query-scoring）加权帧嵌入的加权均值（weighted-mean）这一简单但高效的基础方法，显著优于以往所有时间建模方法以及均值池化策略。基于此，我们为后续研究提供了一个更优的基准模型，并在一系列长视频检索基准测试中验证了该简单基线方法达到了当前最优的性能表现。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多模态表征

计算机视觉

Max Bain Arsha Nagrani Gül Varol Andrew Zisserman

摘要

本文的目标是将图像-文本模型适配于长视频检索任务。近期研究通过采用CLIP模型，在视频检索任务中取得了当前最优的性能，本质上是借助图像-文本的表征能力来提升视频相关任务的表现。然而，在学习时间维度上的聚合机制方面，现有方法尚未取得显著突破，其性能仍难以超越直接对CLIP每帧提取的图像级表征进行均值池化（mean-pooling）的结果。我们发现，通过查询评分（query-scoring）加权帧嵌入的加权均值（weighted-mean）这一简单但高效的基础方法，显著优于以往所有时间建模方法以及均值池化策略。基于此，我们为后续研究提供了一个更优的基准模型，并在一系列长视频检索基准测试中验证了该简单基线方法达到了当前最优的性能表现。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供