杠上 Google I/O?OpenAI 抢先一天直播,ChatGPT 或将具备通话功能

特色图像

本周的 AI 圈注定热闹非凡。

当地时间 5 月 13 日,OpenAI 将直播发布 ChatGPT  与 GPT-4 的更新。次日,Google I/O 如约而至。不同于 I/O 大会是谷歌的年度盛会,OpenAI 此次的临时发布颇有点抢热度的意思。这对纠缠已久的「老对头」此次又会如何出招呢?我们不妨来一起回顾一下双方的渊源,并进行大胆猜想!

多轮对垒,激战正酣

自从 OpenAI 一鸣惊人后,谷歌便被贴上了「恨铁不成钢」、「起步慢」、「追赶」等标签。其中最值得探究的便是「AI 黄埔军校」这一称谓,看似褒奖,实则是谷歌的「一把辛酸泪」。

众所周知,奠定 OpenAI 王座的 ChatGPT 是基于 Transformer 架构的,而 Transformer 正是由谷歌在「Attention Is All You Need」这篇论文中提出的里程碑式架构。此外,ChatGPT 发布界面的致谢中也出现了多位前谷歌大佬的身影,随后更是有多位谷歌骨干员工跳槽至 OpenAI……更有意思的是,每当谷歌试图「绝地反击」时,总会伴随一些小插曲。

2023 年 2 月,为应对 ChatGPT 谷歌提出了 Bard,但在发布后不就便被爆出,在演示时出现事实性错误——

在回答「关于詹姆斯·韦布空间望远镜 (JWST),我可以告诉我 9 岁孩子它有何新发现?」这一问题时,Bard 给出的一个答案是:第一张太阳系外行星的照片由 JWST 拍摄。但哈佛—史密森天体物理中心的研究人员格兰特·特朗布莱指出,是欧洲南方天文台的甚大望远镜 (VLT) 于 2004  年拍摄了第一张系外行星照片。

2023 年 5 月的 I/O 大会上,谷歌展示了 Bard 的产品升级,例如支持更多语言、识别图像信息、接通谷歌应用程序以及部分外部应用等等。同时,谷歌还发布了 PaLM2,作为对标 GPT-4 的产品,其在数学、编码、推理、自然语言生成方面都有所提升。

谷歌健康研究团队还基于此创建了 Med-PaLM 2,具备检索医学知识、解码医学术语等功能。不出意外,模型上对标 GPT,应用上也要对标微软,谷歌将其 AI 能力整合到了文案写作、制作表格等办公场景中,推出了 Google Workspace 。

随后,不少网友以各种形式将 PaLM 2 与 GPT-4 进行了对比,OpenAI 仍然领先的呼声更高。

2023 年 12 月,谷歌发布了其「规模最大、能力最强」的 AI 模型 Gemini,演示效果的确惊艳,高配版本在性能上也能够与 GPT-4 一搏,但是却被爆出演示视频经后期处理,效果被部分夸大。

2024 年 2 月 8 日,谷歌宣布将 Bard 正式更名为 Gemini,其最强模型 Gemini Ultra 加持的聊天机器人 Gemini Advanced 也正式开放,设定与 ChatGPT 相同的 20 美元为「月租」,颇有些打擂台的意思。这次发布更重要的意义是,将谷歌 AI 统一整合为 Gemini——既是模型名、也是产品名。

2024 年 2 月 16 日,自家最强的 Gemini 1.0 Ultra 发布没几天,谷歌便一鼓作气地推出了 Gemini 1.5 。其中,Gemini 1.5 Pro 最高可支持 100 万 token 超长上下文,在 token 数碾压 GPT-4,从而在音频、视频处理等任务上取得了优异的表现。如果没有 Sora,Gemini 1.5 恐怕会在很长一段时间内都是 AI 圈的热议话题。

就在 Gemini 1.5 发布后几个小时,OpenAI 便祭出了文生视频模型 Sora,用前所未有的视频生成能力瞬间站到了舞台的最中央,长达 1 分钟的演示视频直接抢走了 Gemini 的话题度。

这一轮,从技术上无从对比,话题度上显然是胜负已分,OpenAI 也借助 Sora 进一步巩固了自己的地位。

OpenAI 又要截胡热度?

值得注意的是,5 月 1 日,X 网友 Jimmy Apples 爆料,OpenAI 的搜索引擎可能会在 5 月 9 日发布,这位网友曾经准确预测了 GPT-4 的发布日期。随后,他又称发布日期推迟到了 5 月 13 日。

5 月 8 日,彭博社报道也称,OpenAI 内部正在开发全新的搜索引擎,通过生成式 AI 的问答方式带来全新搜索体验。彭博社表示该搜索引擎的特点之一,是可以用书面文字和图像来回答问题。彭博社报道称,OpenAI 的搜索产品是其旗舰产品 ChatGPT 的延伸,使 ChatGPT 能够从网络上直接获取信息,包括引文。在此前的报道中,The Verge 曾爆料,OpenAI 正在挖角谷歌搜索部门的工程师,推进其 AI 搜索产品的快速上线。

OpenAI 此番向本来已经格局稳定的搜索业务下手,有点「直捣黄龙」的意味?

不过,就在 5 月 11 日,OpenAI 官方发布推文称,13 日的发布会只会带来 ChatGPT 和 GPT-4 的更新,只字未提「搜索引擎」。但 5 月 13 日这个日期颇有意思,因为谷歌早已宣布将在 5 月 14 日召开 Google I/O  大会。

随后,Sam Altman 直接明牌了——不是 GPT-5,不是搜索引擎,但是我们一直在努力开发一些我们认为人们会喜欢的新东西!对我来说就像魔法一样。

在 Sam Altman 去除了两个错误答案之后,网友们围绕「OpenAI 到底会发布什么」的大猜想仍然热情高涨,同时也有更多的蛛丝马迹被曝光,其中便包括了语音交互。

据 The Information 报道,OpenAI 已经向其用户展示了一个既能够交谈也能够识别物体的新模型,该模型能够提供更快、更准确的图像与音频理解。据 The Verge 报道,开发人员 Ananay Arora 称,ChatGPT 或将具备通话功能。 Arora 还发现证据表明,OpenAI 提供了用于实时音频和视频通信的服务器。

此外,Hallid 联合创始人 indigo 在其推特 (X) 账号上发布了更加详细的预测,不仅提到了 GPT-4.5,同样也预测了 OpenAI 的新 AI Assistant 助手将支持全语音交互。

不过,从某种角度来看,Sam Altman 虽然否认了「搜索引擎」,但其并未表示不会给 ChatGPT 加点「搜索 buff」。其实,最近一段时间里,网友已经扒出了大量证据——OpenAI 已经进军搜索领域了。

首先是前 Mila 研究员、麻省理工讲师 Lior S 爆料,OpenAI 最新的 SSL 证书日志显示,search.chatgpt.com 子域名已经创建。

目前访问该域名显示 Not found,而非 404 或域名错误

国内有网友接到了灰度测试,「赛博禅心」在其公众号上发布了试用效果:

图源:赛博禅心

可以看到,ChatGPT 回答的还是很精准的,「赛博禅心」表示回答速度也还可以。然而,在实时信息的获取上,ChatGPT 则显现出了不足,赛博禅心搜索比特币价格,并与谷歌搜索出的价格进行了比对:

此外,有网友直接在推特上发布了一段号称是 OpenAI 官方 AI 搜索页面的演示 demo,但与灰度测试的界面有很大不同:

目前,OpenAI 的搜索产品最终是否会以灰度测试的形式与大家见面仍是未知数,整体来看,其所要面对的竞争者也不光是谷歌一家,还有 Perplexity AI 。其实,从某种意义上讲,Perplexity AI 才是 OpenAI 在搜索业务上应该直接对标的产品。

如今,这个自诩为「世界上首个对话式搜索引擎」的 AI 工具风头正盛,获得了黄仁勋的力挺、贝佐斯等大佬的投资,其独特之处在于将 ChatGPT 式的问答和传统搜索引擎的链接列表相结合。

OpenAI 将以何种形式参与到 AI 时代的搜索引擎市场竞争中呢?先期待一下 5 月 13 日的发布会上是否会揭秘 ChatGPT 的搜索功能。

Google I/O 只能靠 Gemini 挑大梁了?

OpenAI 有心还是无意的发布会是否会爆出重大更新仍未可知,但是相信谷歌势必会准时观看这场直播,如果真的有惊喜,不知道劈柴哥是否能够快速应对,并在一天后的 Google I/O 大会上及时反击?

相较而言,一年一度的 Google I/O 大会则是缺乏了一些神秘感,在其官方页面上预告的会议重点是——移动、 Web 、 ML/AI 、云。

按照惯例,公司 CEO Sundar Pichai 将在主题演讲中分享 Android 的更新、新一代硬件产品、谷歌在 AI 领域的最新进展与成果,以及其 AI 能力与谷歌全生态的融合。

* Gemini 赋能谷歌全生态

毫无疑问,Gemini 肯定是今年 Google I/O 大会的重头戏。今年 2 月才更新的 Gemini 1.5 已经将上下文长度拉到了百万级,在性能上已经可以与 GPT-4 一战。所以,谷歌下一步则是需要考虑落地应用的问题了——如何将 Gemini 与其搜索、照片和视频工具、谷歌地图、以及 Gmail 和 Google Docs 等工作空间的工具整合到一起。

此外,谷歌也已经逐渐将其 AI 能力注入到了 Google Assistant 中,Gemini 的强大能力是否能够打造一个更加先进的、更像一个人类的自然语言语音助手呢?

值得注意的是,作为同时拥有先进大模型与硬件业务的企业,Gemini 与 谷歌自家的 Pixel 能碰撞出什么样的火花?去年便有消息称,名为 Pixie 的 AI 助手可能会在 Pixel 9 上亮相。

去年 Google I/O 大会上亮相的 Pixel 8 便已经搭载了谷歌的 AI 能力。其配备了 Google 自研芯片 Tensor G3  处理器,具备音频魔术橡皮擦、 Best Take 、翻译并朗读网页等功能。例如,Best Take 功能可以将多张集体照片组合在一起,从不同的图片中选择不同人物的表情来创建完美合影。

按照惯例,今年的大会上将发布 Pixel 9,但目前的爆料中并未见其身影,反而是 Pixel 8a 呼声较高,至于 AI 助手 Pixie 是否亮相只得拭目以待。

此外,今年 4 月,外媒爆出苹果和谷歌正联手将 Gemini 整合到 iOS 系统中,两家公司都没有正式证实这一消息,如果消息属实,也算得上是两家在多业务上处于竞争关系的巨头,进行了一次「世纪大合作」。不知道劈柴哥会不会在 Google I/O 大会上宣布相关消息。

* Android 和 AR/XR

作为谷歌的基石,Android 永远是 Google I/O 大会上不可或缺的内容。今年,Android 15 已经解开了神秘面纱,开发者预览版和最初的测试版已经发布,Pichai 势必会在演讲中进一步介绍系统的重磅更新。根据此前披露的信息来看,其还将介绍基于 Android Auto 实现的智能车载以及智能手表软件 Wear OS 。

此外,有媒体爆出,Pichai 将会分享谷歌 AR 软件的消息,并介绍其为三星及其他头显厂商开发的 Android XR 平台。根据今年早些时间的报道,谷歌的这一轮裁员的重灾区是 AR 硬件团队,所以有媒体猜测,其已经放弃开发自己的 AR 硬件,而是完全致力于 OEM 合作模式,换言之,谷歌将专注于软件层面。

除了 劈柴哥的主题演讲外,今年的 Google I/O 大会还有多个主题论坛,例如 Google AI 的新动态、 Android 的新动态、面向生成式 AI 时代的 ML 框架等等,但并未提供直播,将在演讲结束后放出相关视频素材,HyperAI 超神经也将持续关注,并围绕 AI 带来深度报道,敬请期待~

写在最后

过去,工业是衡量国家实力的重要度量,如今,科技实力也跻身谈判桌,甚至成为了大国博弈的筹码。尤其是在大模型热度高居不下之际,硅谷巨头们的一举一动都备受关注。犹记得 2022 年末,OpenAI 、微软、谷歌等总是突袭发布重磅更新,网友们直呼——一觉醒来,AI 圈又变天了?

进入 2024 年,战况仍在持续升温,从技术层面的竞速、到应用场景的开发,从老牌劲旅、到新晋独角兽,能够在风口持续霸榜的一定是有护城河的企业。至于在金字塔顶端的大佬们将如何斗法,让我们一起搬好小板凳,静观神仙打架!

参考资料:
1.https://36kr.com/p/2660898993824512
2.https://techcrunch.com/2024/05/09/google-i-o-2024-what-to-expect/
3.https://www.spiceworks.com/tech/tech-general/articles/google-io-2024-expectations

4.https://www.theverge.com/2024/5/11/24154307/openai-multimodal-digital-assistant-chatgpt-phone-calls