HyperAIHyperAI

Command Palette

Search for a command to run...

从大型语言模型中学习视频表示

Yue Zhao extsuperscript1,2*, Ishan Misra extsuperscript1 Philipp Krähenbühl extsuperscript2 Rohit Girdhar extsuperscript1

摘要

我们介绍了LaViLa,这是一种通过利用大型语言模型(LLMs)来学习视频-语言表示的新方法。我们将预训练的大型语言模型重新用于以视觉输入为条件,并对其进行微调以创建自动视频叙述器。我们的自动生成叙述具有多项优势,包括对长视频的密集覆盖、视觉信息与文本更好的时间同步以及更高的文本多样性。通过这些额外的自动生成叙述对比学习得到的视频-文本嵌入在多个第一人称和第三人称视频任务中超越了先前的最先进水平,无论是在零样本设置还是微调设置下。尤为显著的是,LaViLa在EGTEA分类任务上获得了10.1%的绝对提升,在Epic-Kitchens-100多实例检索基准上获得了5.9%的绝对提升。此外,仅使用Ego4D数据集中一半叙述进行训练的LaViLa模型就超过了使用完整数据集训练的基线模型,并且在增加预训练数据量和模型规模时表现出积极的扩展行为。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供