OpenAI推出GPT-5.2,加码AI Agent竞争
OpenAI正式发布GPT-5.2系列模型,称其为“迄今最强大的模型系列”,专为专业工作场景打造。该系列包括GPT-5.2 Instant、Thinking和Pro三个版本,已在ChatGPT付费套餐中陆续上线,并向所有开发者开放API访问。公司表示,GPT-5.2在电子表格制作、演示文稿设计、代码编写、图像理解、长文本推理、工具调用及复杂多步骤任务处理等方面均有显著提升,尤其在专业场景中表现突出。 根据OpenAI公布的基准测试数据,GPT-5.2 Thinking在GDPval评测中以70.9%的得分超越人类专家水平,成为首个在明确知识型任务中达到或超过顶尖专业人士表现的模型。其在SWE-Bench Pro(软件工程)测试中取得55.6%的成绩,优于前代模型;在数学竞赛HMMT和科学推理GPQA Diamond等权威评测中也创下新纪录。模型在长上下文理解方面尤为出色,可在长达256k Token的文档中保持高精度,接近100%的准确率,适用于合同分析、研究报告整合等复杂工作。 此外,GPT-5.2 Thinking的幻觉率相比GPT-5.1降低了38%,提升了专业场景下的可靠性。其视觉理解能力也大幅提升,能更准确识别图像中的组件布局,适用于技术图纸、界面设计等视觉驱动任务。在AI代理工作流中,GPT-5.2表现出更强的工具调用稳定性,尤其在Tau2-bench Telecom等多轮任务中实现98.7%的高成功率。 OpenAI强调,GPT-5.2不仅更智能,也更高效。尽管单Token成本上升,但因推理效率更高,整体使用成本反而低于前代。公司还宣布将逐步推出年龄预测模型,以自动识别未成年人并启用内容保护机制,相关功能将在部分国家试点,计划在2026年第一季度前推出“成人模式”。 此次发布紧随GPT-5.1之后,仅相隔不到一个月。GPT-5.1主打“更温暖、更愉悦”的对话体验,而GPT-5.2则聚焦于专业生产力提升。为应对谷歌等竞争对手的挑战,OpenAI内部已启动“代码红”计划,优先投入资源优化核心产品,暂缓广告等非核心项目。 与此同时,OpenAI与迪士尼达成三年期内容授权协议,允许用户生成包含迪士尼、漫威、皮克斯和星球大战角色的社交视频,并将部分作品上线Disney+,成为其重要客户之一。该合作也伴随着10亿美元的股权投资。 总体来看,GPT-5.2标志着OpenAI在打造“真实世界专业助手”道路上迈出关键一步,不仅强化了其在AI智能体领域的领先地位,也进一步推动AI向高可靠性、高效率、高安全性的方向演进。
