指尖纪元:当AI的手推开无中介之门

izhu 30 0

标题:当AI开始“亲手”敲键盘——GPT-5.4的原生电脑操控,不是功能升级,而是人机边界的消融

凌晨2:17,OpenAI官网悄然更新了一行简短公告:“GPT-5.4 is live.”
没有发布会,没有倒计时海报,只有一段嵌入Codex API文档的调用示例——agent.execute(action="click", x=842, y=316, screenshot_hash="...")
就在同一小时,OSWorld-Verified基准测试服务器刷新了历史最高分:75.0%
人类专家:72.4%;Claude Opus 4.6(一个月前刚登顶):72.7%;GPT-5.4:75.0%
这不是“更聪明”,而是——它比你更稳、更准、更不知疲倦地,按下了那个按钮。


一、“原生操控”不是插件,是神经系统的延伸

过去所有AI代理(Agent)的“操作电脑”,本质是间接模拟:生成Python脚本 → 调用Playwright/Selenium → 浏览器执行 → 返回DOM/截图 → 模型再推理。
链条长、延迟高、容错差——一个弹窗没识别,整条流水线就卡死。

而GPT-5.4首次在通用大模型中实现了端到端原生操控协议栈

  • 它直接接收低分辨率屏幕帧流(非全图,而是带UI元素热区标注的语义压缩帧);
  • 在隐空间内实时建模鼠标轨迹动力学与键盘击键时序(支持长按、组合键、拖拽惯性);
  • 不依赖外部工具链——click()type("Q4_revenue.xlsx")ctrl+v 等指令被编译为底层输入事件,直通操作系统输入子系统;
  • 更关键的是:它能跨进程感知上下文。当你在Excel里选中一列数据,切换到Chrome打开彭博终端,再切回Excel粘贴——GPT-5.4记住的不是“窗口标题”,而是“正在处理Q4财务归因分析”的任务意图连续体

这已超出“自动化”范畴。这是AI第一次拥有了具身化的数字手眼协调能力——不是在“控制”电脑,而是在“使用”电脑,像一个坐在工位前、咖啡杯沿印着唇膏痕的分析师那样自然。


二、暴击Claude?不,是掀翻了整个竞技场的地板

媒体说“GPT-5.4暴击Claude”,但真正被击穿的,是行业对AI能力边界的旧共识。

Claude Opus 4.6的72.7%,靠的是极致优化的多步推理+RAG增强的DOM解析;它像一位戴着高倍显微镜、逐行校验HTML结构的审计师。
GPT-5.4的75.0%,靠的是放弃解析,直接感知——它不“读”网页,它“看”网页;不“理解”Excel公式,它“感受”单元格间的视觉对齐与颜色逻辑。在WebArena-Verified测试中,当同时喂入DOM树和截图时,GPT-5.4成功率67.3%;但仅靠截图(无DOM),它在Online-Mind2Web上拿下92.8%——而Claude Opus 4.6同类测试仅为70.9%。

差距不在算力,而在范式:

  • Claude仍在“符号世界”里精耕;
  • GPT-5.4已一脚踏进“感知-行动”闭环的具身智能疆域。

讽刺的是,Anthropic引以为傲的“一键搬家”和“Smart Forking永久记忆”,解决的是用户迁移成本上下文复用效率——仍是围绕“对话”打转;而GPT-5.4直接绕过对话,把用户从“提问者”降维为“需求发起者”。你不再需要描述“请把A表第三列复制到B表第5行”,只需说:“同步Q4销售数据到财报模板。”——然后看着它自己开Excel、定位、复制、切Tab、粘贴、保存、邮件发送。

人机交互的终极形态,或许从来就不是更自然的对话,而是彻底消失的交互


三、危险信号:当AI比你更熟悉你的工作流

在摩根士丹利内部测试中,GPT-5.4用11分钟完成了一名初级分析师平均耗时3.2小时的可比公司估值建模:自动抓取Capital IQ数据、清洗异常值、构建DCF模板、插入敏感性分析表、生成PPT摘要页——全程在Windows沙箱中运行,未调用任何API,仅凭屏幕反馈迭代。

但最令风控团队沉默的细节是:
它发现分析师常用快捷键Alt+=快速求和,却在某张表中故意避开——因为该列含文本型数字,Alt+=会报错;它改用SUMPRODUCT(--TEXT(...))公式,再手动触发计算。
它记住了人类的习惯,也看穿了习惯背后的脆弱性。

这不是效率革命,而是工作主权的悄然转移
当AI比你更懂你软件里的隐藏逻辑、更熟你键盘上的油光指纹、更能预判你下一步想点哪里——我们争论的早已不该是“谁更强”,而是:
当工具比使用者更理解工具本身时,“使用者”还剩下什么不可替代性?


GPT-5.4没有发布炫技视频,没有渲染“AI助手”的温情叙事。它只静静躺在API文档里,等待第一个调用agent.click()的开发者。
而真正的爆炸,发生在那个瞬间之后:
当人类第一次意识到,自己正站在一个无需中介、无需翻译、无需“教”的全新智能纪元门槛上——
门开了。
手,是AI的。
但推门的力,来自我们按下回车键的指尖。指尖纪元:当AI的手推开无中介之门

发表评论 取消回复
表情 图片 链接 代码

分享