HyperAI超神经

摘要

大型语言模型（LLMs）卓越的零样本能力，推动自然语言处理从任务特定模型迈向统一的、通用型的基础模型。这一转变源于一些简单的基础范式：在互联网规模数据上训练的大规模生成模型。有趣的是，同样的基础范式也适用于当今的生成式视频模型。视频模型是否正沿着一条通往通用视觉理解的路径发展，正如LLMs逐步实现通用语言理解一样？我们证明，Veo 3能够解决其并未显式训练过的多种任务，包括物体分割、边缘检测、图像编辑、理解物理属性、识别物体可用性（affordances）、模拟工具使用等。这些感知、建模与操控视觉世界的能力，使得Veo能够实现早期形式的视觉推理，例如迷宫求解与对称性识别。Veo所展现出的涌现式零样本能力表明，视频模型正朝着成为统一的、通用型视觉基础模型的方向迈进。

摘要

Thaddäus Wiedemer Yuxuan Li Paul Vicol Shixiang Shane Gu Nick Matarese Kevin Swersky Been Kim Priyank Jaini Robert Geirhos

摘要

用 AI 构建 AI

HyperAI Newsletters

Thaddäus Wiedemer Yuxuan Li Paul Vicol Shixiang Shane Gu Nick Matarese Kevin Swersky Been Kim Priyank Jaini Robert Geirhos

摘要

用 AI 构建 AI

HyperAI Newsletters

Thaddäus Wiedemer Yuxuan Li Paul Vicol Shixiang Shane Gu Nick Matarese Kevin Swersky Been Kim Priyank Jaini Robert Geirhos

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

视频模型是零样本学习者和推理者

Thaddäus Wiedemer Yuxuan Li Paul Vicol Shixiang Shane Gu Nick Matarese Kevin Swersky Been Kim Priyank Jaini Robert Geirhos

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

视频模型是零样本学习者和推理者

Thaddäus Wiedemer Yuxuan Li Paul Vicol Shixiang Shane Gu Nick Matarese Kevin Swersky Been Kim Priyank Jaini Robert Geirhos

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

视频模型是零样本学习者和推理者

Thaddäus Wiedemer Yuxuan Li Paul Vicol Shixiang Shane Gu Nick Matarese Kevin Swersky Been Kim Priyank Jaini Robert Geirhos

摘要

用 AI 构建 AI

HyperAI Newsletters