3 月中旬，谷歌宣布 Google I/O 定档北京时间 5 月 15 日凌晨 1 点。而当大会开幕时间临近，本应是讨论度最高的时候，「宿敌」OpenAI 却半路杀出，抢先一天，仅耗时 27 分钟就发布了颠覆性巨作 GPT-4o，将新一轮 AI 争霸带入了「Her 时代」。

正如英伟达科学家 Jim Fan 在评价 GPT-4o 时所言，在 Google I/O 大会之前，OpenAI 发布 GPT-4o 是争取更多时间的明智之举。

抛开双方在公关策略上的博弈不谈，OpenAI 的突然发力或许也预示着，谷歌的 Gemni 也同样来到了语音交互段位。在 Google I/O 开幕前，谷歌官方账号发布了一段与 Gemini 语音交互的视频，在展示 demo 中，Gemini 不仅能够通过手机摄像头实时识别场景，还能够进行流畅的语音交互。

谷歌发布这段 demo 的用意不言而喻，但评论中也不乏质疑其视频造假的声音，毕竟早有「前科」。而在今天的主题演讲中，劈柴哥也并未带来「语音交互」功能的实测，而是再度通过 demo 展示了与 GPT-4o 类似的能力。

具体而言，谷歌 CEO Sundar Pichai 及一众高管在将近 2 小时的主题演讲中一口气介绍了：

Gemini 1.5 Pro 的更新
Gemini 2.5 Flash
Project Astra
AI Overviews
Veo 和 Imagen 3
……

点击观看完整直播回放：【【中英】Google I/O 2024 Keynote 大会完整版｜Gemini 1.5 Pro 重塑搜索引擎，升级到 200 万 tokens！】

Gemini 1.5 Pro：拓展至 200 万 tokens

经历了昨天凌晨的 GPT-4o 发布，大家已经基本从「大模型实时通话」的震惊中走出来了，这也意味着，OpenAI 成功将行业竞争拉至新的制高点，所以，谷歌也必须跟上。而作为自家「最大、最强」的 AI 模型，Gemini 必须为公司搭建好天梯。

今年 2 月，谷歌宣布推出了 Gemini 1.5，其中的 Gemini 1.5 Pro 最高可支持 100 万 token 超长上下文，在 token 数量上一度拉开了与同期大模型之间的差距。今天，谷歌再次突破上下文窗口限制，Pichai 宣布将 Gemini 1.5 Pro 的上下文窗口扩展到 200 万 tokens，并向开发人员提供私人预览版 (private preview) 。

同时，Pichai 宣布将向全球所有开发人员提供改进版的 Gemini 1.5 Pro，其 100 万 token 上下文版本现在可以直接在 Gemini Advanced 中供消费者使用，该版本可用于 35 种语言。

此外，Pichai 还表示 Gemini 1.5 Pro 在过去几个月中通过改进算法得到了增强，在代码生成、逻辑推理和规划、多轮对话以及音频和图像理解方面都有了很大改进。在 Gemini API 和 AI Studio 中，除了图像和视频，Gemini 1.5 Pro 还能对音频进行推理，并通过一种名为系统指令的功能进行引导。

随后，Pichai 还介绍了 Gemini 在 Google Workspace 中的更新，包括 Gmail 、 Docs 、 Drive 、 Slides 和 Sheets 中的 Gemini 将升级至 Gemini 1.5 Pro，Gmail 移动端 APP 推出了新功能（总结邮件、上下文智能回复、 Gmail Q&A），「Help me write」支持多语音写作。

Gemini 1.5 Flash：100 万 tokens 超长上下文、多模态

就当大家以为 Gemini 1.5 的更新「仅此而已」时，DeepMind CEO Demis Hassabis 缓步登场，带来了今天的第一个惊喜——Gemini 1.5 Flash 。

具体而言，轻量级模型 Gemini 1.5 Flash 是 Gemini 1.5 Pro 的精炼版本，针对大容量、高频率的大规模任务进行了优化，服务成本效益更高，并具有突破性的长上下文窗口。同时，Gemini 1.5 Flash 与 Gemini 1.5 Pro 一样是多模态的，这意味着其可以分析音频、视频和图像以及文本。

Demis Hassabis 表示，Gemini 1.5 Flash 擅长汇总、聊天应用、图像和视频字幕、从长文档和表格中提取数据等任务。这是因为 Gemini 1.5 Pro 通过蒸馏 (distillation) 对其进行了训练，将较大模型中最基本的知识和技能转移到了更小、更高效的模型中。

除此之外，Demis Hassabis 还介绍了关于 Gemma 的更新，谷歌宣布推出新一代开放式人工智能创新模型 Gemma 2，其采用全新架构，旨在实现突破性的性能和效率，并将在 6 月正式发布时推出新尺寸。

Project Astra：实时、多模态 AI Agent

在 Google I/O 开幕前的一众爆料与猜测中，AI Assistant Pixie 呼声极高。有媒体称，预计谷歌将推出一款由 Gemini 支持的全新 Pixel AI Assistant，名为 Pixie，其可能具备多模态功能，可以通过用户设备上的信息，如地图或 Gmail，提供更加个性化的服务。

然而 Pixie 并未如预期般露面，取而代之的是具备多模态理解与实时对话能力的 Project Astra 。

Demis Hassabis 表示，在开发能够理解多模态信息的 AI 系统方面，谷歌已经取得了喜人的进展，但如何将响应时间缩短到可进行实时对话的程度却颇具挑战。在过去几年中，团队一直在努力改进模型的感知、推理和对话方式，使交互的节奏和质量感觉更加自然。

目前，团队基于 Gemini 开发了 Agent 原型 (prototype agents)，通过对视频帧进行连续编码，将视频和语音输入结合到事件时间轴中，并缓存这些信息以便高效调用，从而加快信息处理速度。

同时，谷歌利用其语音模型，增强了 Agent 的声音，使其具有更广泛的语调，从而在识别使用环境后，在对话中做出快速反应。

这不禁令人联想到 OpenAI 昨日凌晨展示的新版 ChatGPT，同样是实时对话、可根据情境或用户要求转换语调。不同于谷歌的视频演示，ChatGPT 在直播现场进行了实测，并回答了网上呼声较高的多个问题。如今，基于 GPT-4o 的 ChatGPT 已经免费开放给所有用户，但音频视频功能却出于隐私考虑仍未上线。

Veo 和 Imagen 3：视频+图像双管齐下

谷歌还推出了最新的视频生成模型 Veo 和高质量的文本到图像模型 Imagen 3 。

其中，Veo 是谷歌最强大的视频生成模型，不知道是否为对标 Sora 而来。

Veo 可生成各种电影和视觉风格的 1080p 分辨率视频，视频时长可超过一分钟。谷歌表示，凭借对自然语言和视觉语义的深入理解，其所生成的视频可完美呈现用户的创意构想，准确捕捉提示语的语气并呈现较长提示语中的细节。

同时，Veo 创建的镜头是一致的、连贯的，因此人、动物和物体在整个拍摄过程中的移动都显得更加真实。

在技术层面，Veo 基谷歌多年的生成视频模型经验，融合了 GQN 、 DVD-GAN 、 Imagen-Video 、 Phenaki 、 WALT 、 VideoPoet 和 Lumiere，将架构、缩放规律等技术相结合，以提高质量和输出分辨率。

同样地，Imagen 3 也是谷歌最高质量的文本到图像模型，能够更好地理解自然语言和 Prompt 背后的意图，并将较长提示中的小细节融入其中，这种高级理解能力也有助于该模型掌握各种风格。

AI Overviews：谷歌搜索的大模型时代

25 年前，为了帮助人们更好地理解网上繁杂的信息，谷歌搜索由此诞生，人们可以在该引擎上检索各类问题的答案。现如今，Gemini 的出现将谷歌搜索推到了一个新的高度，重新定义了人们获取知识与解答疑惑的方式。

对此，谷歌在会议中表示：「无论您心中有什么，无论您需要完成什么，只要提问，谷歌就会为您搜索。」

谷歌拥有超过万亿关于人、地点和事物的实时信息，搭配其备受信赖质量系统，可以为用户提供网络上最好的内容。而 Gemini 的加入，则进一步解锁了搜索中的新 Agent 能力，拓展了谷歌搜索更多的可能性。

其中，最让人关注的莫过于 AI Overviews 功能的推出。「有了 AI Overviews，用户提出问题后无需自己拼凑所有信息，谷歌搜索将会为你列出信息的概览，包括多种观点和链接进行更深入的探索。」

谷歌搜索业务副总裁 Liz Reid 在会议中讲道，「AI Overviews 将从今天开始在美国向所有人推出，预计到今年年底，AI Overviews 将为全球超过 10 亿谷歌搜索用户提供服务。」

「事实上，这只是第一步，我们正在让 AI Overviews 解锁更复杂的问题，为了使其成为可能，我们在 Google 搜索中引入了多步骤推理 (Multi-step reasoning) 。」

简单来说，多步骤推理就是将用户的总问题分解成各个部分，并确定需要按什么顺序解决哪些问题，然后，Google 搜索会基于现实的实时信息和排名等，使用最优质的信息来进行问题的推理。

例如，当用户询问地点时，Google 搜索会根据现实世界的信息，包括超过 2.5 亿个地点，以及它们的评分、评论、营业时间等来进行问题的回复，这些信息用户需要经过几分钟甚至更久的时间进行研究，但 Google 搜索几秒钟就能完成。

除了提供基本的信息检索，Google 搜索也能执行高级推理和富有逻辑的规划任务，帮助用户完成餐饮、旅行、派对、约会、锻炼等活动的规划，让用户的生活更轻松。

最后，对于那些用文本或图片也无法准确表达的问题，谷歌也给出了解决方案——即将推出视频提问功能，这意味着未来 Google 搜索的界面将会变得更加多元化。

Trillium：每个芯片的计算性能提高 4.7 倍

据路透社报道，在人工智能数据中心芯片市场上，英伟达占据了大约 80% 的市场份额，剩下的 20% 绝大部分是谷歌各种版本的 TPU 。不过谷歌本身并不销售芯片，而是通过其云计算平台出租芯片。

作为公司的重要业务，宣布新一代 TPU 似乎已经成为了 Google I/O 的传统。今天，Pichai 发布了谷歌第六代 TPU Trillium，并称这是公司迄今为止性能最好、效率最高的 TPU，比上一代 TPU v5e 在每个芯片的计算性能上都提高了 4.7 倍。同时还承诺将在 2024 年底向云客户提供 Trillium 。

据 Tech Crunch 报道，在一定程度上，谷歌是通过扩大芯片的矩阵乘法单元 (MXU) 并提高整体时钟速度来实现性能提升的。此外，谷歌还将 Trillium 芯片的内存带宽提高了一倍。

此外，Pichai 还补充介绍了公司上个月发布的全新 Axion 处理器，这是谷歌首款基于 Arm 的定制 CPU，具有业界领先的性能和能效。

随后，Pichai 还宣布谷歌将与英伟达达成合作，将在 2025 年推出与英伟达合作的 Blackwell 芯片。

AI for Science：AlphaFold 3 或将开源

DeepMind 创始人 Demis Hassabis 介绍道，「为了探究计算机能否像人一样思考，构建通用人工智能，我们创立了 DeepMind 。」

回顾之前的成果，从将视觉和语言转化为机器人行动的 RT-2 、可以遵循自然语言指令在各种视频游戏环境中执行任务的游戏 AI 智能体 SIMA，到可以解决奥赛级别数学问题的 AIphaGeometry 、甚至发现新材料的 GNoME 。 Demis Hassabis 表示：「我一直相信，如果我们能负责任地构建 AGI，它将会以难以置信的方式造福人类。」

此外，在会议中，Demis Hassabis 还重点强调了近期推出的 AlphaFold 3，该模型以前所未有的精确度成功预测了所有生命分子（蛋白质、 DNA 、 RNA 、配体等）的结构和相互作用，在模拟多种不同类型的分子相互作用方面取得了重大突破，这对精准确定药物靶点等研发项目至关重要。

事实上，最初发布 AlphaFold 3 时，Google 没有开源其完整代码的计划，只是为该模型发布了一个支持非商业性研究的 AlphaFold Server 的公共接口，向全球科研人员敞开了大门。

然而，仅仅离发布不到一周的时间，Google DeepMind 研究副总裁突然宣布：「我们将在 6 个月内发布 AF3 模型（包括权重），供学术界使用！」Google 在 I/O 大会开始的前一天突然宣布这个开源计划，无论是迫于 OpenAI 的压力，还是为大会造势预热，AlphaFold 3 的开源都对生命健康领域的发展具有深远的意义。

近期，HyperAI 超神经还将对谷歌 AI for Science 的最新布局进行追踪，感兴趣的小伙伴可以关注公众号，蹲一波深度报道！

写在最后

至此，连续两日的 AI 狂欢落下帷幕。但 OpenAI 与谷歌的对垒不会停歇——GPT-5 的性能天花板在哪？Gemini 的超长上下文限制能否再有突破？OpenAI 的搜索引擎是否会冲击谷歌的地位……

英伟达科学家 Jim Fan 评价道，「谷歌正在做的一件事是正确的：他们终于在认真努力地将人工智能整合到搜索框中。我感觉到了 Agent：规划、实时浏览和多模态输入，所有这些都来自登陆页面。谷歌最强大的护城河是分销 (distribution) 。 Gemini 不一定要成为最好的模型，也可以成为世界上最常用的模型。」

诚然，纵览整场发布会，笔者最大的感受是「在大模型时代，搜索或许依旧能够成为谷歌最大的底气」。