全国
热门城市
我的位置: 首页 > 聚焦 > >> 正文

每日聚焦:OpenAI发布GPT-5.2迎战Gemini,号称智能体编码最强,赶超人类专家,Altman料1月解除红色警报

华尔街见闻官方 2025-12-12 09:29:55

OpenAI周四正式发布GPT-5.2系列模型,打响了迎战谷歌Gemini 3的第一枪。CEO Sam Altman淡化Gemini 3带来的冲击,预计明年1月就可以解除所谓“红色警报”的状态,以非常强劲的姿态重回常态

GPT-5.2是OpenAI迄今最先进的人工智能(AI)模型,针对专业工作场景进行了全面优化,创多个基准测试的行业记录,其中的GPT-5.2 Thinking刷新了SWE编码能力测试的历史最高分,也是OpenAI首个性能达到或超过人类专家水平的模型。

OpenAI应用业务的CEO Fidji Simo表示,GPT-5.2在创建电子表格、制作演示文稿、图像识别、代码编写和长文本理解等方面均优于前代产品,旨在"为人们创造更多经济价值"。OpenAI的研究副总Adain Clark称,GPT-5.2在数学推理方面的进步意味着它能更好地处理金融建模、预测和数据分析等任务。


【资料图】

OpenAI宣布,周四当天GPT5.2就在ChatGPT上线,面向Plus,、Pro、Go、Business和 Enterprise这些付费套餐的用户, 共推出Instant、Thinking和Pro三个版本,API也同步开放给所有开发者。

在ChatGPT中,付费用户可使用三个版本的GPT-5.2,且在未来三个月内仍可继续使用GPT-5.1。在API平台,GPT-5.2定价为每百万输入token 1.75美元、每百万输出token 14美元,缓存输入可享受90%折扣。虽然单token价格高于GPT-5.1,但OpenAI表示,由于模型效率更高,达到相同质量水平的总成本反而更低。

新模型发布是OpenAI对Gemini 3掀起又一轮竞争的正式回应。本周稍早媒体称OpenAI的CEO Sam Altman最近发布内部"红色警报"备忘录,要求公司将资源集中用于改进ChatGPT。几周前,谷歌推出的Gemini 3因其推理和编码能力广受好评,迅速登上LMArena和Humanity"s Last Exam等权威排行榜榜首,给OpenAI带来压力。

评论认为,GPT-5.2 与其说是重新发明,不如说是对OpenAI最近两次升级的整合。8月发布的 GPT-5 是一次重置,为统一系统奠定了基础,它可以在快速默认模型和更深入的“思考”模式之间切换。11月发布的 GPT-5.1专注于使该系统更加友好、更具对话性,并更适合智能体和编码任务。GPT-5.2似乎进一步提升了所有这些进步,使其成为生产应用更可靠的基础。

三个版本GPT5.2分别主打快速、深度、智能可靠

对于周四提供的三个版本GPT 5.2,OpenAI分别介绍称,Instant是快速高效的日常工作和学习助手,在信息查询、操作指南、技术写作和翻译方面均有显著提升。,并延续了 GPT-5.1 Instant 中更亲切的对话风格。早期测试者尤其注意到,GPT-5.2 的解释更加清晰,能够直接呈现关键信息。

Thinking 专为深度工作而设计,能够帮助用户更高效地完成更复杂的任务,尤其是在编码、总结长篇文档、回答有关上传文件的问题、逐步进行数学和逻辑运算、以更清晰的框架和更有用的细节辅助规划和决策方面。

Pro是需要高质量回答难题时“最智能、最可靠”的选择。早期测试表明,它在编程等复杂领域表现更出色,且重大错误更少。

性能全面领先,多项基准测试创新高

GPT-5.2在多个关键基准测试中刷新了行业纪录。在GDPval测试中,该模型在涵盖44个职业的知识工作任务上,有70.9%的表现达到或超过行业专家水平。OpenAI称,GPT-5.2 Thinking完成这些任务的速度是专家的11倍以上,成本不到专家的1%。

在编码能力方面,GPT-5.2 Thinking在SWE-Bench Pro上取得55.6%的成绩,在SWE-bench Verified上更是达到80%的新高。这一基准测试真实世界软件工程任务,涵盖四种编程语言。OpenAI的产品负责人Max Schwarzer表示,GPT-5.2在代码生成和调试方面取得重大进步,Windsurf和CharlieCode等编码初创公司报告称该模型实现了"最先进的智能体编码性能"。

OpenAI声称GPT-5.2 Thinking是"世界上最好的视觉模型",在图表推理和软件界面理解方面的错误率降低了约一半。在长文本处理上,该模型在OpenAI MRCRv2测试中率先在25.6万token范围内实现近100%的准确率,使其特别适合深度文档分析和多源信息工作流。

在科学研究领域,GPT-5.2 Pro在GPQA Diamond测试中达到93.2%的准确率,GPT-5.2 Thinking紧随其后为92.4%。在专家级数学测试FrontierMath上,GPT-5.2 Thinking解决了40.3%的问题,创下新纪录。OpenAI称GPT-5.2 Pro和GPT-5.2 Thinking是"世界上最好的科学家助手模型"。

Altman称Gemini 3影响没担心的大

面对Gemini 3带来的竞争压力,Altman周四接受媒体采访时表示:“Gemini 3对我们指标的影响可能没有我们担心的大。”他预计,OpenAI将在明年1月前以“非常强势的地位”退出红色警报模式。

关于红色警报的原因,Simo在记者会上解释称:"我们宣布红色警报是为了向公司发出信号,表明我们希望将资源集中在某个特定领域,这是明确优先事项和可降级事项的方式。" 她强调,虽然ChatGPT获得了更多资源投入,但GPT-5.2的发布已筹备多月,并非因红色警报而匆忙推出。

虽然Altman据称在内部备忘录中将图像生成列为优先事项,但此次OpenAI的新品发布并未包含新的图像生成器。据报道,OpenAI计划在明年1月发布另一款新模型,将提供更好的图像生成、更快的速度和更强的个性化能力,但公司周四未确认这一计划。

OpenAI还宣布推出年龄预测软件,以便为18岁以下用户提供内容保护。Simo透露,公司将在明年第一季度推出"成人模式",Altman此前表示该模式可能允许"为经过验证的成年人提供情色内容"等用途。

企业客户成为争夺焦点

GPT-5.2的发布明确瞄准企业市场。OpenAI本周早些时候发布的新数据显示,过去一年其AI工具的企业使用量大幅飙升。公司称,ChatGPT Enterprise平均用户表示AI每天为他们节省40至60分钟,重度用户每周节省超过10小时。

Notion、Box、Shopify、Harvey和Zoom等企业客户观察到,GPT-5.2展示了最先进的长周期推理和工具调用性能。Databricks、Hex和Triple Whale发现该模型在智能体数据科学和文档分析任务上表现出色。Cognition、Warp、Charlie Labs、JetBrains和Augment Code则表示GPT-5.2提供了最先进的智能体编码性能。

在工具调用方面,GPT-5.2 Thinking在Tau2-bench Telecom测试中达到98.7%的准确率,展示了其在长时间、多轮次任务中可靠使用工具的能力。在一个涉及航班延误、转机失败和医疗座位需求的复杂客户服务案例中,GPT-5.2成功协调了重新预订、特殊协助座位和补偿等全部流程。

这一战略转向正值关键时刻。OpenAI已承诺在未来几年投入超过1万亿美元用于AI基础设施建设,但如今谷歌正在迎头赶上。据报道,OpenAI的推理计算支出大部分以现金支付而非使用云积分,表明公司的计算成本已超出合作伙伴关系和积分所能补贴的范围。对推理模型的加倍投入可能形成恶性循环:为赢得排行榜而增加计算支出,然后为大规模运行这些高成本模型而进一步增加支出。

在定价策略上,虽然ChatGPT订阅价格保持不变,但API中的GPT-5.2单token价格高于GPT-5.1,不过仍低于其他前沿模型。OpenAI目前没有弃用GPT-5.1、GPT-5或GPT-4.1的计划,并承诺会提前充分通知开发者任何弃用计划。

该作品系作者结合新闻时事、法律法规及互联网相关知识整合,作品内图片源于网络。仅供交流学习,若侵犯到您的权益,烦请联系客服告知,我们核实后将立即删除。 标签: 谷歌 智能体 人工智能 红色警报 知名企

最近更新

每日聚焦:OpenAI发布GPT-5.2迎战Gemini,号称智能体编码最强,赶超人类专家,Altman料1月解除红色警报 OpenAI发布GPT-5 2迎战Gemini,号称智能体编码最强,赶超人类专家,Alt
告别手脚冰凉 中医6款暖身方陪你温暖过冬 随着冬季的到来,不少人开始出现手脚冰凉的现象。这种情况在中医理论中
合肥西站挑灯夜战保投用 12月10日晚,合肥西站灯火通明,施工人员抢抓工期、挑灯夜战,全力推进
每日速看!扬州市邗江区玖趣坊百货经营部(个体工商户)成立 注册资本5万人民币 天眼查App显示,近日,扬州市邗江区玖趣坊百货经营部(个体工商户)成
煤制烯烃题材龙头有哪些?(2025/12/11) 宝丰能源600989:煤制烯烃龙头2025年第三季度季报显示,宝丰能源营收同
“小九月”,谢谢你!1岁2个月大女童病逝,父母含泪捐献其器官,让她继续“活着”|新动态 “如果孩子捐献的每一个器官都能帮助一个家庭的话,这也是孩子的福...
视点!泰国19岁小将布森跑出9秒94,位列亚洲男子百米历史第三 泰国19岁小将布森跑出9秒94,位列亚洲男子百米历史第三,布森,亚洲,泰国
酱香型白酒上市公司龙头股,附名单(2025/12/11) 每日速递 据南方财富网概念查询工具数据显示,2025年酱香型白酒龙头股有:贵州茅
“撒泼哄闹”抗拒执行?法院:罚!|每日视讯 “撒泼哄闹”抗拒执行?法院:罚!
瑞普生物:截至2025年12月10日公司股东总户数约2.5万户 瑞普生物:截至2025年12月10日公司股东总户数约2 5万户
二甲基二硫醚商品报价动态(2025-12-11) 交易商品牌 产地交货地最新报价二甲基二硫醚≥99 8
斯皮纳佐拉:我们没能踢好,感觉本菲卡更强、更具侵略性 斯皮纳佐拉:我们没能踢好,感觉本菲卡更强、更具侵略性,欧冠,本菲卡队
简讯:秋日“杏运”落幕,荆州区非遗年俗好戏正在路上! 湖北日报客户端讯(通讯员刘建昊)当最后一抹金黄从枝头悄然滑落荆州这
深成指12月11日跌1.27% 深成指12月11日跌1 27%。
商品零售题材,名单在这!(12月11日)_即时看 据南方财富网概念库数据显示,相关商品零售题材股票有:创新新材:创新
减速器相关企业前十名|第三季度毛利润排行榜前10 实时焦点 南方财富网概念库财报工具数据整理,截至第三季度,减速器相关企业毛利
生意社:12月11日华东地区二甲苯市场交易情况|焦点热讯 华东地区二甲苯市场主流现货报价区间在5430-5470元 吨,较前一交易日基
港股异动 | 玖龙纸业(02689)现涨超4% 纸业龙头宣布停机计划 机构看好四季度吨利润改善表现|每日聚焦 智通财经APP获悉,玖龙纸业(02689)现涨超4%,截至发稿,涨3 64%,报6 2
人民币汇率升至7.05创10个月新高,近4周美元兑人民币下跌0.81% 人民币汇率升至7 05创10个月新高,近4周美元兑人民币下跌0 81%
13天神奇时间窗!-焦点快播 13天神奇时间窗!12月11日周四早评:中旬至月底防守策略不变!盘面分析
焦点观察:常州世纪芯联科技有限公司成立 注册资本300万人民币 天眼查App显示,近日,常州世纪芯联科技有限公司成立,法定代表人为张
今日快看!消息称 Meta 虚拟现实(VR)头显计划涨价,减缓产品换代节奏 消息称Meta虚拟现实(VR)头显计划涨价,减缓产品换代节奏
【热闻】2025年Tesla题材股票有哪些(12月10日) 据南方财富网概念库数据显示,相关Tesla题材股票:五洲新春603667:五
美国就业成本增长速度降至2021年中以来最低 观热点 【美国就业成本增长速度降至2021年中以来最低】美国劳动力成本的年增长
动态:阿里通义千问Qwen3-TTS全面升级 阿里通义千问Qwen3-TTS全面升级,方言,语种,tts,阿里通义,千问qwen,阿里巴巴集团
焦点速讯:崇阳天城支行适老服务解民忧 荆楚网(湖北日报网)讯(通讯员李静邓琦峰)“太感谢中行的工作人...
基石控股(01592.HK):委任姜志宏为独立非执行董事 格隆汇12月10日丨基石控股(01592 HK)宣布,自2025年12月10日起,姜志宏
焦点热讯:保税科技:拟不超3亿元闲置资金进行证券投资 上证报中国证券网讯(记者潘建樑)保税科技晚间公告,公司为进一步优化
特色养殖成为赤峰市乡村产业振兴新引擎|每日信息 “十四五”期间,赤峰市锚定设施化养殖方向,推动冷水鱼产业从“小...

律师最新回复

  • 2023-03-29 16:54:32

    被合同诈骗了在哪里报案?合同诈骗罪的常见情形有哪些?

  • 2023-03-29 16:54:32

    偷逃税款500万的量刑标准是什么?偷逃税款多少钱构成犯罪?

  • 2023-03-29 16:54:32

    侵占罪的法律责任是什么?侵占罪的构成要件 侵占罪单位能否构成?

  • 2023-03-29 16:54:32

    重婚罪的认定需要满足哪些条件?男人重婚罪怎么判?

  • 2023-03-29 16:54:32

    虚开增值税发票罪要如何来界定?虚开增值税票罪怎样规定立案标准的?

我是律师

律师入驻

 

律所合作请联系客服

服务时间 9:00-18:00

友情链接:

京ICP备2023000331号-32        投诉举报:315 541 185@qq.com

Powered by 名律 Copyright © 名律版权所有