全国
热门城市
我的位置: 首页 > 聚焦 > >> 正文

GPT-5.2部分基准测试分数超过谷歌,但OpenAI“红色警报”尚未解除-每日时讯

第一财经资讯 2025-12-12 12:33:58

拉响“红色警报”应对谷歌竞争后,当地时间12月11日,OpenAI推出了GPT-5.2,包含GPT-5.2 Instant、Thinking和Pro模式,此时距离OpenAI更新GPT-5.1只过去了一个月。


【资料图】

此次发布GPT-5.2,被外界视为OpenAI应对谷歌挑战的一次反击。上个月谷歌发布Gemini 3后,在硅谷掀起一场AI权力的重新分配,OpenAI作为大模型霸主的地位受到挑战。

不同于GPT-5.1着重强调具有“情绪价值”、能与人愉快交谈,此次应对挑战,OpenAI拿出了更多“真枪实弹”。GPT-5.2推出了更多智能上的更新,也放出了基准测试的分数。可以看到一些基准测试分数提升明显。

例如,在知识型工作任务GDPval测试中,GPT-5.2Thinking的分数为70.9%,明显超过GPT-5.1的38.8%,在抽象推理ARC-AGI-2基准测试中,GPT-5.2Thinking的分数为52.9%,明显超过GPT-5.1的17.6%。另一些基准测试分数也有提升,在软件工程SWE-Bench Pro、科学问题GPQA Diamond、科学图表类问题CharXiv推理、数学竞赛HMMT测试中,GPT-5.2Thinking的分数为55.6%、92.4%、88.7%、99.4%,GPT-5.1为50.8%、88.1%、80.3%、96.3%。

基于这些能力提升,OpenAI称为专业知识型工作打造的GPT-5.2是公司至今最强的模型,“GPT-5.2在众多基准测试中都刷新了行业水平,例如GDPval测试中,这款模型在涵盖44个职业的明确知识型工作任务中表现超过了行业专家。”

谷歌发布的Gemini 3 Pro此前在基准测试榜单中“屠榜”,OpenAI此次在基准测试榜单中终于扳回一局。

据此前谷歌放出的数据,在ARC-AGI-2测试中,Gemini 3 Pro分数为31.1%,远超GPT-5.1的17.6%,GPQA Diamond测试中,Gemini 3 Pro分数为91.9%,超过GPT-5.1的88.1%,这种明显的能力提升当时引来业内人士预言“未来6个月内很难有公司能超越这一成绩”。此次GPT-5.2在上述两项基准测试中得分终于超过了Gemini 3 Pro。不过,记者留意到,当时谷歌放出的一些分数明显超过OpenAI的基准测试,例如Humanity’s Last Exam,此次GPT-5.2并未放出。

OpenAI此次也强调了新模型在专业工作中的可用性,称基准测试得分体现了GPT-5.2在制作演示文稿、电子表格等方面的表现优于或与专业人士持平,生成的电子表格和幻灯片在复杂度和格式呈现上相比前一代有明显提升。不过,用户要使用新的电子表格和演示文稿功能,需要订阅付费套餐。长上下文能力使新模型能处理报告、合同、研究论文等文件。而在编码任务中,GPT-5.2能更可靠地调试生产环境代码、以更少的人工干预完成修复交付。

OpenAI演示了一些编码方面的案例,例如,只需要一个提示,GPT-5.2就能生成一个海浪模拟器、一个节日贺卡生成器。其中,海浪模拟器可以拉动数值,改变风速和海浪高度。OpenAI还强调了GPT-5.2 Thinking的幻觉率低于前一代,在一组去标识的查询中,新模型错误回答的频率比GPT-5.1 Thinking减少了38%。OpenAI称,这意味着在写作、研究、分析和决策中模型犯的错误更少,GPT-5.2 Thinking在图表推理和软件界面理解方面的错误率减少了大约一半。此外,OpenAI称,GPT-5.2 Pro和GPT-5.2 Thinking还是目前最有助于加快科研进展的模型。

GPT-5.2Instant、Thinking和Pro周四在ChatGPT中陆续推出,付费套餐用户将能率先体验。不过,OpenAI应对谷歌等竞争而拉响的“红色警报”,并未随着GPT-5.2的发布而解除。

此前OpenAI CEO山姆·奥尔特曼(Sam Altman)在内部备忘录中承认,随着谷歌等竞争对手的快速进步,公司正面临“氛围紧张”和“经济逆风”的双重挑战。

此次OpenAI则表示,拉响“红色警报”是为了集中资源,是一种明确优先级的方式,公司确实增加了更多与ChatGPT相关的资源。奥尔特曼表示,谷歌发布的Gemini 3对公司的一些指标的影响,比原本预计的更小,但当竞争对手的威胁出现时,应该专注并迅速应对,OpenAI预计在明年1月之前结束“红色警报”状态。

GPT-5.2将不是OpenAI应对竞争抛出的唯一产品,奥尔特曼在社交媒体上表示,下周OpenAI还将送出一些“小小的圣诞礼物”。

该作品系作者结合新闻时事、法律法规及互联网相关知识整合,作品内图片源于网络。仅供交流学习,若侵犯到您的权益,烦请联系客服告知,我们核实后将立即删除。 标签: 谷歌 模拟器 gpt 基准测试 红色警报

最近更新

GPT-5.2部分基准测试分数超过谷歌,但OpenAI“红色警报”尚未解除-每日时讯 GPT-5 2部分基准测试分数超过谷歌,但OpenAI“红色警报”尚未解除,谷歌
生意社:12月12日天津港市场冶金焦价格暂稳运行-独家焦点 12月12日天津港市场冶金焦价格暂稳运行,现港口准一级焦报1620元 吨,
大行评级丨摩根大通:下调甲骨文目标价至230美元 自由现金流预测面临压力|新视野 摩根大通发表报告指,甲骨文第二财季业绩表现参差,营收与经营利润均略
热点聚焦:苏州人保财险:持合规之笔 绘金融新卷 近日,苏州人保财险由综合部财务条线牵头召开费用合规宣导会,聚焦非车
每日聚焦:OpenAI发布GPT-5.2迎战Gemini,号称智能体编码最强,赶超人类专家,Altman料1月解除红色警报 OpenAI发布GPT-5 2迎战Gemini,号称智能体编码最强,赶超人类专家,Alt
告别手脚冰凉 中医6款暖身方陪你温暖过冬 随着冬季的到来,不少人开始出现手脚冰凉的现象。这种情况在中医理论中
合肥西站挑灯夜战保投用 12月10日晚,合肥西站灯火通明,施工人员抢抓工期、挑灯夜战,全力推进
每日速看!扬州市邗江区玖趣坊百货经营部(个体工商户)成立 注册资本5万人民币 天眼查App显示,近日,扬州市邗江区玖趣坊百货经营部(个体工商户)成
煤制烯烃题材龙头有哪些?(2025/12/11) 宝丰能源600989:煤制烯烃龙头2025年第三季度季报显示,宝丰能源营收同
“小九月”,谢谢你!1岁2个月大女童病逝,父母含泪捐献其器官,让她继续“活着”|新动态 “如果孩子捐献的每一个器官都能帮助一个家庭的话,这也是孩子的福...
视点!泰国19岁小将布森跑出9秒94,位列亚洲男子百米历史第三 泰国19岁小将布森跑出9秒94,位列亚洲男子百米历史第三,布森,亚洲,泰国
酱香型白酒上市公司龙头股,附名单(2025/12/11) 每日速递 据南方财富网概念查询工具数据显示,2025年酱香型白酒龙头股有:贵州茅
“撒泼哄闹”抗拒执行?法院:罚!|每日视讯 “撒泼哄闹”抗拒执行?法院:罚!
瑞普生物:截至2025年12月10日公司股东总户数约2.5万户 瑞普生物:截至2025年12月10日公司股东总户数约2 5万户
二甲基二硫醚商品报价动态(2025-12-11) 交易商品牌 产地交货地最新报价二甲基二硫醚≥99 8
斯皮纳佐拉:我们没能踢好,感觉本菲卡更强、更具侵略性 斯皮纳佐拉:我们没能踢好,感觉本菲卡更强、更具侵略性,欧冠,本菲卡队
简讯:秋日“杏运”落幕,荆州区非遗年俗好戏正在路上! 湖北日报客户端讯(通讯员刘建昊)当最后一抹金黄从枝头悄然滑落荆州这
深成指12月11日跌1.27% 深成指12月11日跌1 27%。
商品零售题材,名单在这!(12月11日)_即时看 据南方财富网概念库数据显示,相关商品零售题材股票有:创新新材:创新
减速器相关企业前十名|第三季度毛利润排行榜前10 实时焦点 南方财富网概念库财报工具数据整理,截至第三季度,减速器相关企业毛利
生意社:12月11日华东地区二甲苯市场交易情况|焦点热讯 华东地区二甲苯市场主流现货报价区间在5430-5470元 吨,较前一交易日基
港股异动 | 玖龙纸业(02689)现涨超4% 纸业龙头宣布停机计划 机构看好四季度吨利润改善表现|每日聚焦 智通财经APP获悉,玖龙纸业(02689)现涨超4%,截至发稿,涨3 64%,报6 2
人民币汇率升至7.05创10个月新高,近4周美元兑人民币下跌0.81% 人民币汇率升至7 05创10个月新高,近4周美元兑人民币下跌0 81%
13天神奇时间窗!-焦点快播 13天神奇时间窗!12月11日周四早评:中旬至月底防守策略不变!盘面分析
焦点观察:常州世纪芯联科技有限公司成立 注册资本300万人民币 天眼查App显示,近日,常州世纪芯联科技有限公司成立,法定代表人为张
今日快看!消息称 Meta 虚拟现实(VR)头显计划涨价,减缓产品换代节奏 消息称Meta虚拟现实(VR)头显计划涨价,减缓产品换代节奏
【热闻】2025年Tesla题材股票有哪些(12月10日) 据南方财富网概念库数据显示,相关Tesla题材股票:五洲新春603667:五
美国就业成本增长速度降至2021年中以来最低 观热点 【美国就业成本增长速度降至2021年中以来最低】美国劳动力成本的年增长
动态:阿里通义千问Qwen3-TTS全面升级 阿里通义千问Qwen3-TTS全面升级,方言,语种,tts,阿里通义,千问qwen,阿里巴巴集团

律师最新回复

  • 2023-03-29 16:54:32

    被合同诈骗了在哪里报案?合同诈骗罪的常见情形有哪些?

  • 2023-03-29 16:54:32

    偷逃税款500万的量刑标准是什么?偷逃税款多少钱构成犯罪?

  • 2023-03-29 16:54:32

    侵占罪的法律责任是什么?侵占罪的构成要件 侵占罪单位能否构成?

  • 2023-03-29 16:54:32

    重婚罪的认定需要满足哪些条件?男人重婚罪怎么判?

  • 2023-03-29 16:54:32

    虚开增值税发票罪要如何来界定?虚开增值税票罪怎样规定立案标准的?

我是律师

律师入驻

 

律所合作请联系客服

服务时间 9:00-18:00

友情链接:

京ICP备2023000331号-32        投诉举报:315 541 185@qq.com

Powered by 名律 Copyright © 名律版权所有