Google发布最智能AI Gemini 3,登顶性能榜单
Google于11月19日全球正式发布其最新一代人工智能模型Gemini 3,标志着公司在生成式AI领域迈出关键一步。这是Google首次在发布当天就将最先进模型直接集成至核心产品——Google搜索的AI模式中,实现“开箱即用”的体验,彰显其对模型能力的充分信心。 Gemini 3是目前Google最智能的模型,采用稀疏混合专家(MoE)架构,具备前所未有的推理能力、多模态理解力和自主执行任务的 agentic 能力。在多个权威基准测试中表现卓越:在LMArena排行榜上以1501分登顶;在“人类最后的考试”(Humanity's Last Exam)中达到37.5%的准确率,超越此前领先者GPT-5 Pro的31.64%;在GPQA Diamond(研究生级科学理解)测试中得分高达91.9%,在MathArena Apex等高难度数学题中也刷新纪录。其增强版“Gemini 3 Deep Think”模式在部分测试中更达41.0%的推理准确率,目前正接受安全评估,预计未来几周向Google AI Ultra订阅用户开放。 在应用层面,Gemini 3带来三大核心升级:学习、构建与规划。其100万token的超长上下文窗口,可处理整本学术论文或数小时视频内容,并自动生成交互式学习材料。在编程方面,Gemini 3 Pro在LiveCodeBench Pro基准中以2439分遥遥领先,SWE-bench Verified得分76.2%,被普林斯顿大学研究者评价为“领先一个代差”。Google同步推出名为Antigravity的全新开发平台,支持多窗口智能体协作,能自主操作编辑器、终端和浏览器,实现端到端的代码生成与验证。 最引人注目的是其生成式用户界面(Generative UI)能力。Gemini 3能根据用户查询动态生成包含交互工具、模拟器、图表和可视化布局的响应。例如,搜索“RNA聚合酶如何工作”时,系统将不再返回链接,而是提供可操作的动态动画演示,真正实现“从信息查找向深度理解”的跃迁。 该模型的发布也凸显Google的生态优势。Gemini 3基于自研Trillium TPU芯片训练,算力达512 TOPS,能效提升67%。其能力已全面覆盖Gemini应用、AI搜索、AI Studio、Vertex AI及Antigravity平台,尤其在搜索入口的整合,是OpenAI、Anthropic等公司难以复制的核心壁垒。 尽管在GPT-5.1、Sonnet 4.5等竞品接连发布背景下,Gemini 3的发布节奏极快,但Google的策略并非单纯追求参数或速度,而是以“全栈整合”为核心,将AI能力深度嵌入用户日常场景。正如DeepMind CEO哈萨比斯所言,未来AI的真正价值在于与用户长期记忆、日程、邮件等生态深度连接,实现个性化、情境化服务。 目前,Gemini 3 Pro已向美国地区的Google AI Pro和Ultra订阅用户开放,后续将逐步扩大至全球。这一发布不仅是一次技术突破,更预示着AI正从“工具”迈向“伙伴”的关键转折。
