HyperAIHyperAI

Command Palette

Search for a command to run...

基于CLIP的视频检索的简单框架

Jesús Andrés Portillo-Quintero José Carlos Ortiz-Bayliss Hugo Terashima-Marín

摘要

视频检索是一项具有挑战性的任务,旨在将文本查询与视频进行匹配,或反之亦然。现有的大多数方法在解决此类问题时依赖于用户提供的标注信息。尽管该方法实现简单,但在实际应用中并不总是可行。本文探索了将语言-图像模型CLIP应用于视频表征学习,从而无需依赖人工标注。该模型经过专门训练,旨在学习一个统一的语义空间,使图像与文本能够在其中进行有效比较。通过本文所描述的多种技术手段,我们将CLIP的应用拓展至视频领域,在MSR-VTT和MSVD两个基准测试上取得了当前最优的性能表现。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供