Computer Use:AI 从"会聊天"到"会操作电脑",一个新时代正在开启
你打开电脑,点开浏览器,登录后台,找到那张表格,复制几个数据,粘贴到另一个系统里,再点三次"确认"。
整个过程不超过 5 分钟。但你每天要重复 20 遍。
你可能想过:"这种事,AI 能帮我干吗?"
过去的答案是:不行。AI 能帮你写文案、改代码、做翻译,但一涉及"操作电脑"——点鼠标、填表单、切窗口——它就两手一摊。因为它只会"说话",不会"动手"。
但 2026 年 3 月,事情变了。
OpenAI 的 GPT-5.4 首次将"操作电脑"的能力直接烧进了模型权重。Anthropic 的 Claude Cowork 已经能在你的 Mac 桌面上自主打开文件、编辑文档、运行命令。Google 的 Project Mariner 甚至可以同时操作 10 个浏览器标签页。
这不是未来。这是正在发生的事。
今天我想跟你聊聊这个变化——AI 是怎么学会"操作电脑"的,三巨头各走了什么路线,以及这件事为什么可能比 ChatGPT 诞生那一刻更具颠覆性。
一、到底什么是 Computer Use?
先说一个你一定能理解的比方。
传统的 AI 助手,像一个只会打电话的秘书。你问他"明天天气怎么样",他帮你查完告诉你。但如果你说"帮我把这个文件从 A 系统导出来,转换格式后上传到 B 系统"——他做不到。因为他没有手,碰不到你的电脑。
Computer Use 的突破在于:这个秘书现在坐在了你的电脑前。他能看到屏幕上的一切,能移动鼠标,能敲键盘,能像人一样操作任何软件。
技术上,这个过程是一个不断循环的"感知-决策-行动"环:
每一轮循环,AI 都会:
- 截取当前屏幕——看到你看到的一切
- 用视觉模型识别 UI 元素——按钮在哪、输入框在哪、文字写了什么
- 推理下一步该做什么——根据任务目标决定动作
- 执行操作——点击坐标 (x, y)、输入文本、滚动页面
然后重新截屏,看看操作结果对不对,再决定下一步。
听起来简单?但这里有一个关键突破:GPT-5.4 把"看屏幕"和"做决策"合并成了同一次推理。以前需要先调用视觉模型识别界面,再把结果传给语言模型做决策——两步变一步。就像一个人看到红灯不需要先"识别红灯"再"决定停车",而是看到就停。
GUI 就是新的 API。 这句话值得你停下来想 10 秒钟。过去我们让 AI 调用工具,必须通过 API 接口。现在,AI 直接"看"界面、"用"界面。这意味着世界上每一个有界面的软件,突然都变成了 AI 可以调用的"工具"。
但问题来了:这条路,三家巨头走出了三种完全不同的风格。
二、三巨头的三条路线:谁在操作你的电脑?
如果把 AI 操作电脑比作"请助手帮你干活",那 Anthropic、OpenAI 和 Google 请的是三种完全不同性格的助手。
Anthropic Claude:谨慎的管家
Anthropic 的路线是桌面级。Claude Cowork 直接运行在你的 Mac 上,能操作整个操作系统——不只是浏览器,还有 Finder、终端、各种本地应用。
但 Claude 有个鲜明的特点:它会在关键操作前停下来问你。要删文件?先问。要发邮件?先确认。这不是技术限制,而是设计哲学。Anthropic 把安全放在了能力前面。
数据说话:Claude 在 OSWorld 基准测试上从 2024 年底的不到 15% 飙升到了现在的 72.5%。Anthropic 还在今年 2 月收购了 Vercept,一家专注计算机视觉的创业公司,显然是在加码这个方向。
OpenAI:自主的员工
OpenAI 走了两条路。一条是 Operator——一个在云端浏览器里运行的 AI Agent,专注于 Web 任务。另一条更激进:GPT-5.4 直接把 Computer Use 烧进了模型。
GPT-5.4 的 Computer Use 不是一个外挂工具,而是模型的原生能力。它在 OSWorld 上拿到了 75.0% 的成绩——这个数字的意义在于,它首次超过了人类专家的 72.4%。
更重要的是风格差异:GPT-5.4 更倾向于自主完成整个任务链,中间不暂停、不请示。适合后台自动化,但也意味着出错时你可能来不及拦。
Google:多面手
Google 的 Project Mariner 做了一件别人没做的事:同时操作多个任务。演示中,它可以同时在 10 个浏览器标签页中工作——一边帮你比价,一边帮你填表,一边帮你回邮件。
在 WebVoyager 基准测试上,OpenAI 的 CUA 拿了 87%,Mariner 拿了 83.5%。差距不大,但 Mariner 的多任务并行能力是独一份的。
| 产品 | 类型 | 核心优势 | 基准测试 | 风格 |
|---|---|---|---|---|
| Claude Cowork | 桌面级 | 全系统控制,安全优先 | OSWorld 72.5% | 谨慎管家 |
| GPT-5.4 | 原生集成 | 感知决策一体化,超越人类 | OSWorld 75.0% | 自主员工 |
| Operator (CUA) | 云端浏览器 | Web 任务王者 | WebVoyager 87% | 专项专家 |
| Project Mariner | 多平台 | 多任务并行 | WebVoyager 83.5% | 多面手 |
三家的路线差异,本质上是对一个问题的不同回答:你想让 AI 拥有多大的自主权?
Claude 说"我帮你干,但大事你做主";GPT-5.4 说"你告诉我目标,过程别管";Mariner 说"你有 10 件事要干?我同时开工"。
不是谁更强的问题,是谁更适合你的场景的问题。
但不管选哪家,一个更根本的问题浮出水面:为什么这件事如此重要?
三、为什么 Computer Use 比 API 更"炸裂"
你可能会想:AI 通过 API 调用工具不是已经很厉害了吗?MCP 协议、Function Calling、各种插件……Computer Use 有什么特别的?
我给你讲一个真实的场景。
一家制造业企业,用了 15 年的 ERP 系统,供应商早就倒闭了。这个系统没有 API,没有导出接口,唯一的交互方式就是一个 Windows 桌面程序。员工每天要在这个老系统和新的 CRM 之间手动搬数据,一搬就是 2 小时。
传统自动化(RPA)能帮忙吗?能,但代价高昂。RPA 靠的是"录制操作脚本"——界面稍一改动,脚本就崩。维护一个 RPA 流程的成本,有时比雇一个人还贵。
API 能帮忙吗?根本没有 API。
Computer Use 能帮忙。
因为 AI 不是通过脚本操作界面,而是像人一样"看"界面。按钮换了位置?没关系,它能找到。菜单改了名字?没关系,它能读。弹了个新窗口?没关系,它能理解。
打个比方:API 就像给不同语言的人配翻译,但前提是对方愿意说话。Computer Use 就像派了一个能看懂任何语言的人,直接去帮你操作,不管对方配不配合。
这意味着什么?
Gartner 预测,到 2026 年底,40% 的企业应用将内置 AI Agent。但真正的变革不在新应用——而在那些几十年不变的老系统。全球企业 IT 系统中,超过 70% 是没有现代 API 的"遗留系统"。Computer Use 第一次让 AI 能够触达这些系统。
换句话说:当 GUI 变成万能接口,API 就不再是唯一的选择。
听起来很美好,对吧?但我必须给你泼一盆冷水。
四、没那么美好:五个你必须知道的坑
如果你看完前面三章,已经兴奋地想把所有工作都交给 AI 了——请等一等。
Computer Use 目前还远不是一个"设置好就不用管"的技术。以下五个坑,你必须了解。
坑 1:多米诺骨牌效应
AI 操作电脑是一个多步骤的链式任务。每一步的错误都会传递到下一步。
假设一个 20 步的任务,每一步成功率 95%。你可能觉得挺高了?但算一下:0.95 的 20 次方 = 35.8%。整个任务的成功率只有 36%。
这就像多米诺骨牌——第 3 块倒错了方向,后面 17 块全完。这也是为什么目前的基准测试普遍在 70%-80% 的区间,离"放心用"还有距离。
坑 2:CAPTCHA 是一堵墙
AI 无法解决 CAPTCHA 验证码。每当遇到"请证明你是人类"的弹窗,Agent 就会卡住,只能等你来帮忙。
更尴尬的是,越来越多的网站把"频繁自动操作"视为异常行为,直接触发风控。AI 操作得越快,越容易被当成机器人——这确实有点讽刺。
坑 3:成本不一定划算
每次"看屏幕"都需要调用视觉模型处理高分辨率截图。一个 20 步的任务可能需要 20+ 次截图分析,消耗大量 token。
对于那些"人做 30 秒就完成"的简单任务,用 Computer Use 可能反而更贵。这项技术的经济拐点在于重复性高、步骤多、人工成本高的场景。
坑 4:安全是一个严肃问题
你正在给 AI 完整的电脑控制权。这意味着:
- 恶意 prompt 可能诱导 AI 访问不该访问的页面
- 网页中的隐藏指令可能劫持 Agent 的行为(prompt injection)
- 敏感数据可能在截图分析过程中被泄露
Palo Alto Networks 的研究团队指出:AI Agent 面临的安全威胁不是传统的病毒或木马,而是"通过语言来攻击的新型漏洞"。一个伪装成正常网页的恶意页面,可能通过页面上的隐藏文字指令,让你的 AI Agent 做出完全出乎意料的操作。
坑 5:界面变了,AI 也会懵
虽然 Computer Use 比 RPA 更能适应界面变化,但它也不是万能的。一个大版本的 UI 改版——比如按钮从左边挪到了右边,或者整个交互流程重新设计——仍然可能让 AI 短暂"懵圈"。
好消息是,AI 比 RPA 恢复得快得多。RPA 脚本改界面就"死",AI 通常"愣一下"就能适应。但"愣一下"在关键操作(比如支付确认)里,可能就够出事了。
AI 能操作电脑,不等于你能放心让它操作。至少现在还不行。
那么,作为一个普通开发者或技术人,你现在能做什么?
五、普通开发者现在能做什么
说了这么多,你可能最想知道的是:我今天就能用上吗?怎么用?
答案是:能。而且门槛比你想的低得多。
最容易上手:Claude Cowork
如果你是 Mac 用户,打开 Claude Desktop 应用,你已经可以使用 Cowork 模式了。它能帮你:
- 在本地文件系统中读取、编辑、整理文件
- 运行终端命令
- 操作桌面应用
适合场景:重复性文件处理、数据搬运、批量操作。比如"把这个文件夹里所有 CSV 按日期重命名并移到归档目录"——以前你要写脚本,现在你说一句话。
Web 自动化:OpenAI Operator
如果你的任务主要在浏览器里完成——比价、填表、抓取信息——Operator 是更好的选择。它运行在云端沙盒里,安全隔离做得更好。
开发者 API 接入
如果你想在自己的产品里集成 Computer Use 能力,Anthropic 和 OpenAI 都提供了 API。核心流程大概是这样的:
# 伪代码:Computer Use 的核心循环
while not task_completed:
screenshot = capture_screen() # 截取屏幕
action = model.analyze( # AI 分析并决策
image=screenshot,
task="在 CRM 中找到客户 A 的记录并导出"
)
execute(action) # 执行操作(点击/输入)
task_completed = check_result() # 检查是否完成
关键在第 3 行:你不需要告诉 AI "点击坐标 (340, 520)",只需要告诉它任务目标。AI 自己看屏幕、找元素、做决策。
我的建议很具体:
- 今天就试:打开 Claude Desktop,试一次 Cowork。给它一个简单任务,感受一下"指挥 AI 操作电脑"是什么体验。你对这项技术的直觉,比读十篇文章都有用。
- 列一个"我每天重复做的事"清单:然后从中挑出最无聊、最机械的那件,试试能不能交给 AI。
从"自己干"到"指挥 AI 干",中间只差一次尝试。
六、总结与展望
最后,回顾几个核心观点:
- Computer Use 的本质:不是让 AI "更聪明",而是让 AI "长出了手"。从只能对话,到能操作任何有界面的软件。
- 三条路线:Claude 做谨慎管家,GPT-5.4 做自主员工,Mariner 做多面手。没有谁更好,只有谁更适合你的场景。
- 真正的颠覆:不在于替代 API,而在于覆盖了 API 覆盖不到的 70%——那些没有接口的遗留系统。
- 现实的挑战:错误累积、安全风险、成本效益——这项技术还在"能用但需盯着"的阶段。
- 趋势不可逆:OSWorld 成绩从 15% 到 75%,只用了一年半。按这个速度,2027 年我们可能就不需要讨论"能不能放心用"了。
我认为,Computer Use 是 AI Agent 真正"落地"的最关键拼图。过去两年我们谈了太多 Agent 的概念,但 Agent 要真正干活,就必须能操作人类的工具。现在,它终于可以了。
这不是渐进式的改进。这是一个新品类的诞生——AI 不再是"对话伙伴",而是"数字员工"。
键盘和鼠标已经等了 40 年。
它们终于等到了一个不需要休息的主人。
参考资料
- Agentic Computer Use: Ultimate Deep Guide 2026 - o-mega.ai
- Computer-Using Agent - OpenAI
- Introducing Operator - OpenAI
- Computer Use Tool - Anthropic Claude API Docs
- Anthropic Acquires Vercept - Anthropic
- GPT-5.4 Native Computer Use Capability - Apiyi.com
- AI Agents: Operator vs Browser Use vs Project Mariner - AIMultiple
- AI Agents Are Here. So Are the Threats - Palo Alto Networks Unit 42
- Microsoft Launches Copilot Cowork, Powered by Anthropic's Claude - WinBuzzer