Command Palette

Search for a command to run...

1 个月前

视频模型是零样本学习者和推理者

Thaddäus Wiedemer Yuxuan Li Paul Vicol Shixiang Shane Gu Nick Matarese Kevin Swersky Been Kim Priyank Jaini Robert Geirhos

视频模型是零样本学习者和推理者

摘要

大型语言模型(LLMs)卓越的零样本能力,推动自然语言处理从任务特定模型迈向统一的、通用型的基础模型。这一转变源于一些简单的基础范式:在互联网规模数据上训练的大规模生成模型。有趣的是,同样的基础范式也适用于当今的生成式视频模型。视频模型是否正沿着一条通往通用视觉理解的路径发展,正如LLMs逐步实现通用语言理解一样?我们证明,Veo 3能够解决其并未显式训练过的多种任务,包括物体分割、边缘检测、图像编辑、理解物理属性、识别物体可用性(affordances)、模拟工具使用等。这些感知、建模与操控视觉世界的能力,使得Veo能够实现早期形式的视觉推理,例如迷宫求解与对称性识别。Veo所展现出的涌现式零样本能力表明,视频模型正朝着成为统一的、通用型视觉基础模型的方向迈进。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
视频模型是零样本学习者和推理者 | 论文 | HyperAI超神经