Computer Use：AI 从"会聊天"到"会操作电脑"，一个新时代正在开启

你打开电脑，点开浏览器，登录后台，找到那张表格，复制几个数据，粘贴到另一个系统里，再点三次"确认"。

整个过程不超过 5 分钟。但你每天要重复 20 遍。

你可能想过："这种事，AI 能帮我干吗？"

过去的答案是：不行。AI 能帮你写文案、改代码、做翻译，但一涉及"操作电脑"——点鼠标、填表单、切窗口——它就两手一摊。因为它只会"说话"，不会"动手"。

但 2026 年 3 月，事情变了。

OpenAI 的 GPT-5.4 首次将"操作电脑"的能力直接烧进了模型权重。Anthropic 的 Claude Cowork 已经能在你的 Mac 桌面上自主打开文件、编辑文档、运行命令。Google 的 Project Mariner 甚至可以同时操作 10 个浏览器标签页。

这不是未来。这是正在发生的事。

今天我想跟你聊聊这个变化——AI 是怎么学会"操作电脑"的，三巨头各走了什么路线，以及这件事为什么可能比 ChatGPT 诞生那一刻更具颠覆性。

一、到底什么是 Computer Use？

先说一个你一定能理解的比方。

传统的 AI 助手，像一个只会打电话的秘书。你问他"明天天气怎么样"，他帮你查完告诉你。但如果你说"帮我把这个文件从 A 系统导出来，转换格式后上传到 B 系统"——他做不到。因为他没有手，碰不到你的电脑。

Computer Use 的突破在于：这个秘书现在坐在了你的电脑前。他能看到屏幕上的一切，能移动鼠标，能敲键盘，能像人一样操作任何软件。

技术上，这个过程是一个不断循环的"感知-决策-行动"环：

Computer Use 的核心循环：截图 → 识别 → 决策 → 执行 → 再截图

每一轮循环，AI 都会：

截取当前屏幕——看到你看到的一切
用视觉模型识别 UI 元素——按钮在哪、输入框在哪、文字写了什么
推理下一步该做什么——根据任务目标决定动作
执行操作——点击坐标 (x, y)、输入文本、滚动页面

然后重新截屏，看看操作结果对不对，再决定下一步。

听起来简单？但这里有一个关键突破：GPT-5.4 把"看屏幕"和"做决策"合并成了同一次推理。以前需要先调用视觉模型识别界面，再把结果传给语言模型做决策——两步变一步。就像一个人看到红灯不需要先"识别红灯"再"决定停车"，而是看到就停。

一句话理解

Computer Use = 给 AI 装上了"眼睛"和"手"。它能看到你的屏幕，像真人一样操作任何软件——不需要 API，不需要插件，只要是人能操作的，它就能操作。

GUI 就是新的 API。 这句话值得你停下来想 10 秒钟。过去我们让 AI 调用工具，必须通过 API 接口。现在，AI 直接"看"界面、"用"界面。这意味着世界上每一个有界面的软件，突然都变成了 AI 可以调用的"工具"。

但问题来了：这条路，三家巨头走出了三种完全不同的风格。

二、三巨头的三条路线：谁在操作你的电脑？

如果把 AI 操作电脑比作"请助手帮你干活"，那 Anthropic、OpenAI 和 Google 请的是三种完全不同性格的助手。

Anthropic Claude：谨慎的管家

Anthropic 的路线是桌面级。Claude Cowork 直接运行在你的 Mac 上，能操作整个操作系统——不只是浏览器，还有 Finder、终端、各种本地应用。

但 Claude 有个鲜明的特点：它会在关键操作前停下来问你。要删文件？先问。要发邮件？先确认。这不是技术限制，而是设计哲学。Anthropic 把安全放在了能力前面。

数据说话：Claude 在 OSWorld 基准测试上从 2024 年底的不到 15% 飙升到了现在的 72.5%。Anthropic 还在今年 2 月收购了 Vercept，一家专注计算机视觉的创业公司，显然是在加码这个方向。

OpenAI：自主的员工

OpenAI 走了两条路。一条是 Operator——一个在云端浏览器里运行的 AI Agent，专注于 Web 任务。另一条更激进：GPT-5.4 直接把 Computer Use 烧进了模型。

GPT-5.4 的 Computer Use 不是一个外挂工具，而是模型的原生能力。它在 OSWorld 上拿到了 75.0% 的成绩——这个数字的意义在于，它首次超过了人类专家的 72.4%。

更重要的是风格差异：GPT-5.4 更倾向于自主完成整个任务链，中间不暂停、不请示。适合后台自动化，但也意味着出错时你可能来不及拦。

Google：多面手

Google 的 Project Mariner 做了一件别人没做的事：同时操作多个任务。演示中，它可以同时在 10 个浏览器标签页中工作——一边帮你比价，一边帮你填表，一边帮你回邮件。

在 WebVoyager 基准测试上，OpenAI 的 CUA 拿了 87%，Mariner 拿了 83.5%。差距不大，但 Mariner 的多任务并行能力是独一份的。

产品	类型	核心优势	基准测试	风格
Claude Cowork	桌面级	全系统控制，安全优先	OSWorld 72.5%	谨慎管家
GPT-5.4	原生集成	感知决策一体化，超越人类	OSWorld 75.0%	自主员工
Operator (CUA)	云端浏览器	Web 任务王者	WebVoyager 87%	专项专家
Project Mariner	多平台	多任务并行	WebVoyager 83.5%	多面手

你知道吗？

微软也在布局。2026 年 3 月，微软推出了 Copilot Cowork——但有意思的是，它底层用的不是自家模型，而是 Anthropic 的 Claude。这可能是微软在这个赛道上最务实的选择。

三家的路线差异，本质上是对一个问题的不同回答：你想让 AI 拥有多大的自主权？

Claude 说"我帮你干，但大事你做主"；GPT-5.4 说"你告诉我目标，过程别管"；Mariner 说"你有 10 件事要干？我同时开工"。

不是谁更强的问题，是谁更适合你的场景的问题。

但不管选哪家，一个更根本的问题浮出水面：为什么这件事如此重要？

三、为什么 Computer Use 比 API 更"炸裂"

你可能会想：AI 通过 API 调用工具不是已经很厉害了吗？MCP 协议、Function Calling、各种插件……Computer Use 有什么特别的？

我给你讲一个真实的场景。

一家制造业企业，用了 15 年的 ERP 系统，供应商早就倒闭了。这个系统没有 API，没有导出接口，唯一的交互方式就是一个 Windows 桌面程序。员工每天要在这个老系统和新的 CRM 之间手动搬数据，一搬就是 2 小时。

传统自动化（RPA）能帮忙吗？能，但代价高昂。RPA 靠的是"录制操作脚本"——界面稍一改动，脚本就崩。维护一个 RPA 流程的成本，有时比雇一个人还贵。

API 能帮忙吗？根本没有 API。

Computer Use 能帮忙。

因为 AI 不是通过脚本操作界面，而是像人一样"看"界面。按钮换了位置？没关系，它能找到。菜单改了名字？没关系，它能读。弹了个新窗口？没关系，它能理解。

传统集成 vs Computer Use：从"需要接口"到"看到就能用"

打个比方：API 就像给不同语言的人配翻译，但前提是对方愿意说话。Computer Use 就像派了一个能看懂任何语言的人，直接去帮你操作，不管对方配不配合。

这意味着什么？

Gartner 预测，到 2026 年底，40% 的企业应用将内置 AI Agent。但真正的变革不在新应用——而在那些几十年不变的老系统。全球企业 IT 系统中，超过 70% 是没有现代 API 的"遗留系统"。Computer Use 第一次让 AI 能够触达这些系统。

换句话说：当 GUI 变成万能接口，API 就不再是唯一的选择。

听起来很美好，对吧？但我必须给你泼一盆冷水。

四、没那么美好：五个你必须知道的坑

如果你看完前面三章，已经兴奋地想把所有工作都交给 AI 了——请等一等。

Computer Use 目前还远不是一个"设置好就不用管"的技术。以下五个坑，你必须了解。

坑 1：多米诺骨牌效应

AI 操作电脑是一个多步骤的链式任务。每一步的错误都会传递到下一步。

假设一个 20 步的任务，每一步成功率 95%。你可能觉得挺高了？但算一下：0.95 的 20 次方 = 35.8%。整个任务的成功率只有 36%。

这就像多米诺骨牌——第 3 块倒错了方向，后面 17 块全完。这也是为什么目前的基准测试普遍在 70%-80% 的区间，离"放心用"还有距离。

常见误区

"单步成功率 95% = 整体任务很靠谱"。错。长链任务中，错误会指数级累积。这是 Computer Use 当前最大的技术瓶颈。

坑 2：CAPTCHA 是一堵墙

AI 无法解决 CAPTCHA 验证码。每当遇到"请证明你是人类"的弹窗，Agent 就会卡住，只能等你来帮忙。

更尴尬的是，越来越多的网站把"频繁自动操作"视为异常行为，直接触发风控。AI 操作得越快，越容易被当成机器人——这确实有点讽刺。

坑 3：成本不一定划算

每次"看屏幕"都需要调用视觉模型处理高分辨率截图。一个 20 步的任务可能需要 20+ 次截图分析，消耗大量 token。

对于那些"人做 30 秒就完成"的简单任务，用 Computer Use 可能反而更贵。这项技术的经济拐点在于重复性高、步骤多、人工成本高的场景。

坑 4：安全是一个严肃问题

你正在给 AI 完整的电脑控制权。这意味着：

恶意 prompt 可能诱导 AI 访问不该访问的页面
网页中的隐藏指令可能劫持 Agent 的行为（prompt injection）
敏感数据可能在截图分析过程中被泄露

Palo Alto Networks 的研究团队指出：AI Agent 面临的安全威胁不是传统的病毒或木马，而是"通过语言来攻击的新型漏洞"。一个伪装成正常网页的恶意页面，可能通过页面上的隐藏文字指令，让你的 AI Agent 做出完全出乎意料的操作。

坑 5：界面变了，AI 也会懵

虽然 Computer Use 比 RPA 更能适应界面变化，但它也不是万能的。一个大版本的 UI 改版——比如按钮从左边挪到了右边，或者整个交互流程重新设计——仍然可能让 AI 短暂"懵圈"。

好消息是，AI 比 RPA 恢复得快得多。RPA 脚本改界面就"死"，AI 通常"愣一下"就能适应。但"愣一下"在关键操作（比如支付确认）里，可能就够出事了。

AI 能操作电脑，不等于你能放心让它操作。至少现在还不行。

那么，作为一个普通开发者或技术人，你现在能做什么？

五、普通开发者现在能做什么

说了这么多，你可能最想知道的是：我今天就能用上吗？怎么用？

答案是：能。而且门槛比你想的低得多。

最容易上手：Claude Cowork

如果你是 Mac 用户，打开 Claude Desktop 应用，你已经可以使用 Cowork 模式了。它能帮你：

在本地文件系统中读取、编辑、整理文件
运行终端命令
操作桌面应用

适合场景：重复性文件处理、数据搬运、批量操作。比如"把这个文件夹里所有 CSV 按日期重命名并移到归档目录"——以前你要写脚本，现在你说一句话。

Web 自动化：OpenAI Operator

如果你的任务主要在浏览器里完成——比价、填表、抓取信息——Operator 是更好的选择。它运行在云端沙盒里，安全隔离做得更好。

开发者 API 接入

如果你想在自己的产品里集成 Computer Use 能力，Anthropic 和 OpenAI 都提供了 API。核心流程大概是这样的：

# 伪代码：Computer Use 的核心循环
while not task_completed:
    screenshot = capture_screen()        # 截取屏幕
    action = model.analyze(              # AI 分析并决策
        image=screenshot,
        task="在 CRM 中找到客户 A 的记录并导出"
    )
    execute(action)                      # 执行操作（点击/输入）
    task_completed = check_result()      # 检查是否完成

关键在第 3 行：你不需要告诉 AI "点击坐标 (340, 520)"，只需要告诉它任务目标。AI 自己看屏幕、找元素、做决策。

最佳实践

从低风险、高重复的任务开始。比如"每天从 3 个网站抓取竞品价格"或"把 Notion 里的会议记录同步到飞书"。不要一上来就让 AI 帮你操作银行账户。

我的建议很具体：

今天就试：打开 Claude Desktop，试一次 Cowork。给它一个简单任务，感受一下"指挥 AI 操作电脑"是什么体验。你对这项技术的直觉，比读十篇文章都有用。
列一个"我每天重复做的事"清单：然后从中挑出最无聊、最机械的那件，试试能不能交给 AI。

从"自己干"到"指挥 AI 干"，中间只差一次尝试。

六、总结与展望

最后，回顾几个核心观点：

Computer Use 的本质：不是让 AI "更聪明"，而是让 AI "长出了手"。从只能对话，到能操作任何有界面的软件。
三条路线：Claude 做谨慎管家，GPT-5.4 做自主员工，Mariner 做多面手。没有谁更好，只有谁更适合你的场景。
真正的颠覆：不在于替代 API，而在于覆盖了 API 覆盖不到的 70%——那些没有接口的遗留系统。
现实的挑战：错误累积、安全风险、成本效益——这项技术还在"能用但需盯着"的阶段。
趋势不可逆：OSWorld 成绩从 15% 到 75%，只用了一年半。按这个速度，2027 年我们可能就不需要讨论"能不能放心用"了。

我认为，Computer Use 是 AI Agent 真正"落地"的最关键拼图。过去两年我们谈了太多 Agent 的概念，但 Agent 要真正干活，就必须能操作人类的工具。现在，它终于可以了。

这不是渐进式的改进。这是一个新品类的诞生——AI 不再是"对话伙伴"，而是"数字员工"。

键盘和鼠标已经等了 40 年。
它们终于等到了一个不需要休息的主人。

Computer Use：AI 从"会聊天"到"会操作电脑"，一个新时代正在开启

一、到底什么是 Computer Use？

二、三巨头的三条路线：谁在操作你的电脑？

Anthropic Claude：谨慎的管家

OpenAI：自主的员工

Google：多面手

三、为什么 Computer Use 比 API 更"炸裂"

四、没那么美好：五个你必须知道的坑

坑 1：多米诺骨牌效应

坑 2：CAPTCHA 是一堵墙

坑 3：成本不一定划算

坑 4：安全是一个严肃问题

坑 5：界面变了，AI 也会懵

五、普通开发者现在能做什么

最容易上手：Claude Cowork

Web 自动化：OpenAI Operator

开发者 API 接入

六、总结与展望

参考资料