Command Palette
Search for a command to run...
Thaddäus Wiedemer Yuxuan Li Paul Vicol Shixiang Shane Gu Nick Matarese Kevin Swersky Been Kim Priyank Jaini Robert Geirhos

摘要
大型语言模型(LLMs)卓越的零样本能力,推动自然语言处理从任务特定模型迈向统一的、通用型的基础模型。这一转变源于一些简单的基础范式:在互联网规模数据上训练的大规模生成模型。有趣的是,同样的基础范式也适用于当今的生成式视频模型。视频模型是否正沿着一条通往通用视觉理解的路径发展,正如LLMs逐步实现通用语言理解一样?我们证明,Veo 3能够解决其并未显式训练过的多种任务,包括物体分割、边缘检测、图像编辑、理解物理属性、识别物体可用性(affordances)、模拟工具使用等。这些感知、建模与操控视觉世界的能力,使得Veo能够实现早期形式的视觉推理,例如迷宫求解与对称性识别。Veo所展现出的涌现式零样本能力表明,视频模型正朝着成为统一的、通用型视觉基础模型的方向迈进。