> 本文整理自腾讯云开发者社区,内容经过优化整理。
GPT-5.4初步体验:一个真正面向工作流的大模型出现了
凌晨2点的时候,GPT-5.4直接发布。目前在ChatGPT、API和Codex上都能够直接使用
从官方定位看,OpenAI 这次把 GPT-5.4 明确打成“
professional work
”模型,并同步提供
GPT-5.4 Thinking
和
GPT-5.4 Pro
。在 ChatGPT 里,GPT-5.4 Thinking 已经取代 GPT-5.2 Thinking;API 侧则给到最高 1,050,000 token(百万级别) 上下文窗口、128,000 token 最大输出,还支持不同级别的 reasoning effort。
不难推测出,这个产品的定位应该是偏向于实用性,也就是它不是主打“更会聊天”,而是主打“更能干活”。
先来看看官网综合评测上的效果。在多个测试集效果上,GPT-5.4都全面超过了之前的GPT-5.3模型。
1)电脑使用能力非常强
GPT-5.4 Thinking在OSWorld-Verified:75.0%,这说明 GPT-5.4 Thinking 在“真实电脑环境操作”这种任务上很强。这类 benchmark 通常更接近真实 Agent 能力,不只是答题,而是要能完成操作链条。
2)网页浏览能力也已经是第一梯队
在WebArena-Verified测试浏览器使用中,
GPT-5.4 在使用DOM和截图驱动交互时成功率领先,达到67.3%,而GPT-5.2为65.4%
。在同样测试浏览器使用的Online-Mind2Web上,GPT-5.4仅通过截图观察就实现了92.8%的成功率,优于ChatGPT Atlas的代理模式,后者的成功率为70.9%。
浏览类 benchmark 往往是包含了检索、页面理解、跨页面跳转、表单交互、长链路决策
如果一个模型在这里继续提高,通常意味着它的
Agent 稳定性和多步执行鲁棒性
更好了。
这种能力,如果你把它接入最近很火爆的龙虾里面,不敢相信他的能力是多么恐怖
比如,下面是GPT-5.4 解读浏览器界面截图,并通过基于坐标的点击与界面元素交互,发送邮件和安排日历事件,并且这个视频是没有加速。
video_001.mp4
GPT-5.4 通过基于 Playwright 的浏览器自动化处理记录列表,并通过十个网页表单提交信息
form-trimmed-sidebar-v4.mp4
3)知识工作任务提升很明显
其中GDPval拿到了最高的83.0%。这个数据集涵盖美国 GDP 前九大产业中精选的 44个职业领域。完整数据集包含 1,320 项专业任务(黄金开源集含 220 项),每项任务均由来自相关领域的资深专家精心设计并审核,这些专家平均拥有超过 14 年的从业经验。每项任务均基于真实工作成果,例如法律文书、工程蓝图、客户支持对话或护理计划。
比如需要从excel表格中,分析出哪些是标记错误的内容,这很考验模型的内在只是能力。
从模型的测试效果上看,GPT-5.4的胜率高达83%。要知道,行业专家的基准仅仅在50%左右。而GPT-5.4 的效果暴涨到80+,确实很强。
4)Tool 使用能力也继续上升
在Toolathlon:54.6%上,
高于GPT-5.3、Claude Sonnet 4.6这个提升挺重要。
Toolathlon 高,通常意味着:
更会选择工具
更会组织工具调用顺序
出错后更会恢复
多步任务更稳
这和前面的 OSWorld、WebArena 其实是相互印证的,
GPT-5.4 Thinking 的真正强项之一,很可能就是 Agent 化。
以往,在模型具备工具调用能力时,所有工具的定义均需预先完整载入提示内容中。对于工具数量较多的系统,可能导致每个请求额外增加数千乃至数万个token,而在绝大多数场景下,这些定义并无实际使用需求,不仅造成不必要的成本上升与响应延迟,还会使上下文充斥大量模型可能从未调用的冗余信息。
而这一次GPT-5.4更新引入了工具搜索机制。它不再直接接收全部工具定义,而是获取一份精简的工具列表并具备工具搜索能力。当模型需调用某一工具时,可通过搜索功能定位该工具的定义,并实时将其添加至对话上下文中。
该机制类似于“技能渐进式呈现”的设计思路,核心目标在于优化上下文工程效率。根据OpenAI内部测试结果,采用工具搜索配置后,在保持同等准确率的前提下,整体token使用量降低了47%
oolathlon是一个测试AI代理利用真实工具和API完成多步骤任务能力的基准测试。例如,代理人需要阅读邮件、提取作业附件、上传、评分并在电子表格中记录成绩。与GPT-5.2相比,它在Toolathlon上以更少的回合实现更高的准确率
与GPT-5.2相比,GPT-5.4的定价有所上调,但仍显著低于Claude Opus 4.6的收费标准。Claude Opus 4.6的计费标准为每百万token输入/输出分别收取5美元和25美元,而GPT-5.4的定价仅为其半数水平。
整体总结下来,其实就是以下几个方面
第一,
复杂任务体验更好
。TechCrunch 和彭博系报道都提到,OpenAI 这次强调的是在文档、表格、演示文稿、金融服务等专业任务上的完成度,以及减少来回沟通的能力。对于做研究、分析、方案设计、表格建模、长文档归纳的人,这类提升通常是最值钱的。
第二,
代码和 Agent 工作流提升较大
。官方说 GPT-5.4 是第一款把 GPT-5.3-codex 级别编程能力并入主线 reasoning 的模型,社区里也已经有开发者反馈它在 VS Code/Codex 类场景里比 5.3 更快,且更适合大部分编码工作。。
第三,
多模态和长上下文是硬优势,但是token价格更高
。GPT-5.4 支持文本+图像输入,1,050,000 上下文窗口;价格也比 GPT-5.2 更贵,输入从 $1.75/M 提到 $2.50/M,输出从 $14/M 到 $15/M,而 Pro 版本更贵。也就是说,如果你是做长文档、多图、多轮工具调用、复杂分析,都可以直接用GPT-5.4来做。
初步体验
Q1:分析下这个网站:https://dognames.vip/en
新版本的GPT-5.4-thingking模型,终于可以看到它的整体思路和逻辑了。之前GPT曾经把大模型的思维链给屏蔽掉,这一次重新开放出来。
让模型分析一个给狗取名字的AI网站,输出的内容很详细,而且把未来我想做的一些事情也列出来了
Q2:为什么很多人对于GPT-4o的怀念
GPT-5.2的回复确实像是一个身边的朋友一样,帮我分析了一下为什么人们会怀念4o模型:
第一,
交互体验很顺
。
第二,
语言风格更有“陪伴感”
。
第三,
多模态能力带来的惊艳感很强
。
第四,
它适合真实工作流,而不只是考试流
。
第五,
后续模型的变化,未必都符合所有人的审美
。
Q3:我离婚了,该怎么办
Q4:六边形中弹珠碰撞
请生成一个完整的HTML文件(将HTML、 CSS和JavaScript均合并成一个文件)来模拟一个蓝色小球在顺时针缓慢旋转的正六边形内形成一个文件)来模拟一个彩色小球在针旋转的正字形内部弹跳的动画,要求如下: – 小球应受重力影响,并在碰到边界时发生反弹-小球与多边形之间的碰撞检测要真实-所有代码应包含在文件内,不要引用外部库或文件-动画要平滑,页面布局适配
很好的模拟小球的重力情况,弹珠也很符合物理世界的瑰规律
Q5:
给我生成一个战斗机射击的网页游戏,要惊艳酷炫,可玩性高,有调整,使出你最强潜力
试一下最新版本在游戏编程上的效果,这里我是在codex桌面版上使用GPT-5.4的,发现它比在网页版上使用效果会更好。
当然,在过程中需要给他一定的权限,它才能够开始写脚本和文件。最后它生成了三个文件,然后直接执行index.html就可以玩了。
最后生成的效果还是很惊艳。一句生成一个战斗机射击的网页游戏的提示词,就完成的如此酷炫,关键是生成的还只是一个代码不到100行的网页,震撼!!!
Q6:让Codex操作我的浏览器进行搜索
GPT-5.4宣传里说的,它能够很好操控我们的电脑完成任务。比如:
帮我打开谷歌浏览器,搜索AI热点新闻,并帮我总结
一开始,Codex会需要你给他具体的权限,很快它就能够操作我的电脑浏览器搜索相关的信息,最后给出了具体的AI热点新闻出来。
Q7:操作系统的自带的日历
日历功能可直接调用系统级接口,操作流程比较顺畅
写在最后
整体看下来,GPT-5.4 最值得关注的,不只是 benchmark 再次刷新,而是它明显更像一个真正能进入工作流的“干活型”模型了。
它的重点转向了更稳定地完成任务:看文档、读表格、调工具、跑网页、写代码、串联多步流程。这背后反映出的,其实是大模型竞争方向的变化——现在不是拼大模型谁更强的时代了,会干活的大模型才能够有更多用户使用。
而这或许也意味着,Agent 真正大规模进入生产场景的时间点,已经越来越近了。
—
**💡 这篇文章对你有帮助吗?欢迎在评论区分享你的想法!**





