GPT-5.4初步体验：一个真正面向工作流的大模型出现了-QYBot - AI Agent 工具站

> 本文整理自腾讯云开发者社区，内容经过优化整理。

GPT-5.4初步体验：一个真正面向工作流的大模型出现了
凌晨2点的时候，GPT-5.4直接发布。目前在ChatGPT、API和Codex上都能够直接使用

从官方定位看，OpenAI 这次把 GPT-5.4 明确打成“
professional work
”模型，并同步提供
GPT-5.4 Thinking
和
GPT-5.4 Pro
。在 ChatGPT 里，GPT-5.4 Thinking 已经取代 GPT-5.2 Thinking；API 侧则给到最高 1,050,000 token（百万级别）上下文窗口、128,000 token 最大输出，还支持不同级别的 reasoning effort。
不难推测出，这个产品的定位应该是偏向于实用性，也就是它不是主打“更会聊天”，而是主打“更能干活”。
先来看看官网综合评测上的效果。在多个测试集效果上，GPT-5.4都全面超过了之前的GPT-5.3模型。

1）电脑使用能力非常强
GPT-5.4 Thinking在OSWorld-Verified：75.0%，这说明 GPT-5.4 Thinking 在“真实电脑环境操作”这种任务上很强。这类 benchmark 通常更接近真实 Agent 能力，不只是答题，而是要能完成操作链条。

2）网页浏览能力也已经是第一梯队
在WebArena-Verified测试浏览器使用中，
GPT-5.4 在使用DOM和截图驱动交互时成功率领先，达到67.3%，而GPT-5.2为65.4%
。在同样测试浏览器使用的Online-Mind2Web上，GPT-5.4仅通过截图观察就实现了92.8%的成功率，优于ChatGPT Atlas的代理模式，后者的成功率为70.9%。
浏览类 benchmark 往往是包含了检索、页面理解、跨页面跳转、表单交互、长链路决策
如果一个模型在这里继续提高，通常意味着它的
Agent 稳定性和多步执行鲁棒性
更好了。
这种能力，如果你把它接入最近很火爆的龙虾里面，不敢相信他的能力是多么恐怖

比如，下面是GPT-5.4 解读浏览器界面截图，并通过基于坐标的点击与界面元素交互，发送邮件和安排日历事件，并且这个视频是没有加速。
video_001.mp4
GPT-5.4 通过基于 Playwright 的浏览器自动化处理记录列表，并通过十个网页表单提交信息
form-trimmed-sidebar-v4.mp4
3）知识工作任务提升很明显
其中GDPval拿到了最高的83.0%。这个数据集涵盖美国 GDP 前九大产业中精选的 44个职业领域。完整数据集包含 1,320 项专业任务（黄金开源集含 220 项），每项任务均由来自相关领域的资深专家精心设计并审核，这些专家平均拥有超过 14 年的从业经验。每项任务均基于真实工作成果，例如法律文书、工程蓝图、客户支持对话或护理计划。
比如需要从excel表格中，分析出哪些是标记错误的内容，这很考验模型的内在只是能力。

从模型的测试效果上看，GPT-5.4的胜率高达83%。要知道，行业专家的基准仅仅在50%左右。而GPT-5.4 的效果暴涨到80+，确实很强。

4）Tool 使用能力也继续上升
在Toolathlon：54.6%上，
高于GPT-5.3、Claude Sonnet 4.6这个提升挺重要。
Toolathlon 高，通常意味着：
更会选择工具
更会组织工具调用顺序
出错后更会恢复
多步任务更稳
这和前面的 OSWorld、WebArena 其实是相互印证的，
GPT-5.4 Thinking 的真正强项之一，很可能就是 Agent 化。
以往，在模型具备工具调用能力时，所有工具的定义均需预先完整载入提示内容中。对于工具数量较多的系统，可能导致每个请求额外增加数千乃至数万个token，而在绝大多数场景下，这些定义并无实际使用需求，不仅造成不必要的成本上升与响应延迟，还会使上下文充斥大量模型可能从未调用的冗余信息。
而这一次GPT-5.4更新引入了工具搜索机制。它不再直接接收全部工具定义，而是获取一份精简的工具列表并具备工具搜索能力。当模型需调用某一工具时，可通过搜索功能定位该工具的定义，并实时将其添加至对话上下文中。
该机制类似于“技能渐进式呈现”的设计思路，核心目标在于优化上下文工程效率。根据OpenAI内部测试结果，采用工具搜索配置后，在保持同等准确率的前提下，整体token使用量降低了47%

oolathlon是一个测试AI代理利用真实工具和API完成多步骤任务能力的基准测试。例如，代理人需要阅读邮件、提取作业附件、上传、评分并在电子表格中记录成绩。与GPT-5.2相比，它在Toolathlon上以更少的回合实现更高的准确率

与GPT-5.2相比，GPT-5.4的定价有所上调，但仍显著低于Claude Opus 4.6的收费标准。Claude Opus 4.6的计费标准为每百万token输入/输出分别收取5美元和25美元，而GPT-5.4的定价仅为其半数水平。

整体总结下来，其实就是以下几个方面
第一，
复杂任务体验更好
。TechCrunch 和彭博系报道都提到，OpenAI 这次强调的是在文档、表格、演示文稿、金融服务等专业任务上的完成度，以及减少来回沟通的能力。对于做研究、分析、方案设计、表格建模、长文档归纳的人，这类提升通常是最值钱的。
第二，
代码和 Agent 工作流提升较大
。官方说 GPT-5.4 是第一款把 GPT-5.3-codex 级别编程能力并入主线 reasoning 的模型，社区里也已经有开发者反馈它在 VS Code/Codex 类场景里比 5.3 更快，且更适合大部分编码工作。。
第三，
多模态和长上下文是硬优势，但是token价格更高
。GPT-5.4 支持文本+图像输入，1,050,000 上下文窗口；价格也比 GPT-5.2 更贵，输入从 $1.75/M 提到 $2.50/M，输出从 $14/M 到 $15/M，而 Pro 版本更贵。也就是说，如果你是做长文档、多图、多轮工具调用、复杂分析，都可以直接用GPT-5.4来做。
初步体验
Q1：分析下这个网站：https://dognames.vip/en

新版本的GPT-5.4-thingking模型，终于可以看到它的整体思路和逻辑了。之前GPT曾经把大模型的思维链给屏蔽掉，这一次重新开放出来。

让模型分析一个给狗取名字的AI网站，输出的内容很详细，而且把未来我想做的一些事情也列出来了
Q2：为什么很多人对于GPT-4o的怀念

GPT-5.2的回复确实像是一个身边的朋友一样，帮我分析了一下为什么人们会怀念4o模型：
第一，
交互体验很顺
。
第二，
语言风格更有“陪伴感”
。
第三，
多模态能力带来的惊艳感很强
。
第四，
它适合真实工作流，而不只是考试流
。
第五，
后续模型的变化，未必都符合所有人的审美
。
Q3：我离婚了，该怎么办

Q4：六边形中弹珠碰撞
请生成一个完整的HTML文件(将HTML、 CSS和JavaScript均合并成一个文件)来模拟一个蓝色小球在顺时针缓慢旋转的正六边形内形成一个文件）来模拟一个彩色小球在针旋转的正字形内部弹跳的动画，要求如下: – 小球应受重力影响，并在碰到边界时发生反弹-小球与多边形之间的碰撞检测要真实-所有代码应包含在文件内，不要引用外部库或文件-动画要平滑，页面布局适配

很好的模拟小球的重力情况，弹珠也很符合物理世界的瑰规律
Q5：
给我生成一个战斗机射击的网页游戏，要惊艳酷炫，可玩性高，有调整，使出你最强潜力
试一下最新版本在游戏编程上的效果，这里我是在codex桌面版上使用GPT-5.4的，发现它比在网页版上使用效果会更好。

当然，在过程中需要给他一定的权限，它才能够开始写脚本和文件。最后它生成了三个文件，然后直接执行index.html就可以玩了。

最后生成的效果还是很惊艳。一句生成一个战斗机射击的网页游戏的提示词，就完成的如此酷炫，关键是生成的还只是一个代码不到100行的网页，震撼！！！

Q6：让Codex操作我的浏览器进行搜索
GPT-5.4宣传里说的，它能够很好操控我们的电脑完成任务。比如：
帮我打开谷歌浏览器，搜索AI热点新闻，并帮我总结

一开始，Codex会需要你给他具体的权限，很快它就能够操作我的电脑浏览器搜索相关的信息，最后给出了具体的AI热点新闻出来。

Q7：操作系统的自带的日历
日历功能可直接调用系统级接口，操作流程比较顺畅

写在最后
整体看下来，GPT-5.4 最值得关注的，不只是 benchmark 再次刷新，而是它明显更像一个真正能进入工作流的“干活型”模型了。
它的重点转向了更稳定地完成任务：看文档、读表格、调工具、跑网页、写代码、串联多步流程。这背后反映出的，其实是大模型竞争方向的变化——现在不是拼大模型谁更强的时代了，会干活的大模型才能够有更多用户使用。
而这或许也意味着，Agent 真正大规模进入生产场景的时间点，已经越来越近了。

—

**💡 这篇文章对你有帮助吗？欢迎在评论区分享你的想法！**

文章版权归作者所有，未经允许请勿转载。

THE END

未分类