TECH ARTICLES
AI Agent Computer Use 人机交互

Computer Use:AI 从"会聊天"到"会操作电脑",一个新时代正在开启

Jackie Zhan 2026-03-23
目录
一、到底什么是 Computer Use? 二、三巨头的三条路线:谁在操作你的电脑? 三、为什么 Computer Use 比 API 更"炸裂" 四、没那么美好:五个你必须知道的坑 五、普通开发者现在能做什么 六、总结与展望

你打开电脑,点开浏览器,登录后台,找到那张表格,复制几个数据,粘贴到另一个系统里,再点三次"确认"。

整个过程不超过 5 分钟。但你每天要重复 20 遍。

你可能想过:"这种事,AI 能帮我干吗?"

过去的答案是:不行。AI 能帮你写文案、改代码、做翻译,但一涉及"操作电脑"——点鼠标、填表单、切窗口——它就两手一摊。因为它只会"说话",不会"动手"。

但 2026 年 3 月,事情变了。

OpenAI 的 GPT-5.4 首次将"操作电脑"的能力直接烧进了模型权重。Anthropic 的 Claude Cowork 已经能在你的 Mac 桌面上自主打开文件、编辑文档、运行命令。Google 的 Project Mariner 甚至可以同时操作 10 个浏览器标签页。

这不是未来。这是正在发生的事。

今天我想跟你聊聊这个变化——AI 是怎么学会"操作电脑"的,三巨头各走了什么路线,以及这件事为什么可能比 ChatGPT 诞生那一刻更具颠覆性。


一、到底什么是 Computer Use?

先说一个你一定能理解的比方。

传统的 AI 助手,像一个只会打电话的秘书。你问他"明天天气怎么样",他帮你查完告诉你。但如果你说"帮我把这个文件从 A 系统导出来,转换格式后上传到 B 系统"——他做不到。因为他没有手,碰不到你的电脑。

Computer Use 的突破在于:这个秘书现在坐在了你的电脑前。他能看到屏幕上的一切,能移动鼠标,能敲键盘,能像人一样操作任何软件。

技术上,这个过程是一个不断循环的"感知-决策-行动"环:

截取屏幕 Screenshot 视觉理解 识别 UI 元素 推理决策 下一步做什么 执行操作 点击/输入 循环直到任务完成
Computer Use 的核心循环:截图 → 识别 → 决策 → 执行 → 再截图

每一轮循环,AI 都会:

  1. 截取当前屏幕——看到你看到的一切
  2. 用视觉模型识别 UI 元素——按钮在哪、输入框在哪、文字写了什么
  3. 推理下一步该做什么——根据任务目标决定动作
  4. 执行操作——点击坐标 (x, y)、输入文本、滚动页面

然后重新截屏,看看操作结果对不对,再决定下一步。

听起来简单?但这里有一个关键突破:GPT-5.4 把"看屏幕"和"做决策"合并成了同一次推理。以前需要先调用视觉模型识别界面,再把结果传给语言模型做决策——两步变一步。就像一个人看到红灯不需要先"识别红灯"再"决定停车",而是看到就停。

一句话理解
Computer Use = 给 AI 装上了"眼睛"和"手"。它能看到你的屏幕,像真人一样操作任何软件——不需要 API,不需要插件,只要是人能操作的,它就能操作。

GUI 就是新的 API。 这句话值得你停下来想 10 秒钟。过去我们让 AI 调用工具,必须通过 API 接口。现在,AI 直接"看"界面、"用"界面。这意味着世界上每一个有界面的软件,突然都变成了 AI 可以调用的"工具"。

但问题来了:这条路,三家巨头走出了三种完全不同的风格。

二、三巨头的三条路线:谁在操作你的电脑?

如果把 AI 操作电脑比作"请助手帮你干活",那 Anthropic、OpenAI 和 Google 请的是三种完全不同性格的助手。

Anthropic Claude:谨慎的管家

Anthropic 的路线是桌面级。Claude Cowork 直接运行在你的 Mac 上,能操作整个操作系统——不只是浏览器,还有 Finder、终端、各种本地应用。

但 Claude 有个鲜明的特点:它会在关键操作前停下来问你。要删文件?先问。要发邮件?先确认。这不是技术限制,而是设计哲学。Anthropic 把安全放在了能力前面。

数据说话:Claude 在 OSWorld 基准测试上从 2024 年底的不到 15% 飙升到了现在的 72.5%。Anthropic 还在今年 2 月收购了 Vercept,一家专注计算机视觉的创业公司,显然是在加码这个方向。

OpenAI:自主的员工

OpenAI 走了两条路。一条是 Operator——一个在云端浏览器里运行的 AI Agent,专注于 Web 任务。另一条更激进:GPT-5.4 直接把 Computer Use 烧进了模型

GPT-5.4 的 Computer Use 不是一个外挂工具,而是模型的原生能力。它在 OSWorld 上拿到了 75.0% 的成绩——这个数字的意义在于,它首次超过了人类专家的 72.4%

更重要的是风格差异:GPT-5.4 更倾向于自主完成整个任务链,中间不暂停、不请示。适合后台自动化,但也意味着出错时你可能来不及拦。

Google:多面手

Google 的 Project Mariner 做了一件别人没做的事:同时操作多个任务。演示中,它可以同时在 10 个浏览器标签页中工作——一边帮你比价,一边帮你填表,一边帮你回邮件。

在 WebVoyager 基准测试上,OpenAI 的 CUA 拿了 87%,Mariner 拿了 83.5%。差距不大,但 Mariner 的多任务并行能力是独一份的。

产品类型核心优势基准测试风格
Claude Cowork桌面级全系统控制,安全优先OSWorld 72.5%谨慎管家
GPT-5.4原生集成感知决策一体化,超越人类OSWorld 75.0%自主员工
Operator (CUA)云端浏览器Web 任务王者WebVoyager 87%专项专家
Project Mariner多平台多任务并行WebVoyager 83.5%多面手
你知道吗?
微软也在布局。2026 年 3 月,微软推出了 Copilot Cowork——但有意思的是,它底层用的不是自家模型,而是 Anthropic 的 Claude。这可能是微软在这个赛道上最务实的选择。

三家的路线差异,本质上是对一个问题的不同回答:你想让 AI 拥有多大的自主权?

Claude 说"我帮你干,但大事你做主";GPT-5.4 说"你告诉我目标,过程别管";Mariner 说"你有 10 件事要干?我同时开工"。

不是谁更强的问题,是谁更适合你的场景的问题。

但不管选哪家,一个更根本的问题浮出水面:为什么这件事如此重要?

三、为什么 Computer Use 比 API 更"炸裂"

你可能会想:AI 通过 API 调用工具不是已经很厉害了吗?MCP 协议、Function Calling、各种插件……Computer Use 有什么特别的?

我给你讲一个真实的场景。

一家制造业企业,用了 15 年的 ERP 系统,供应商早就倒闭了。这个系统没有 API,没有导出接口,唯一的交互方式就是一个 Windows 桌面程序。员工每天要在这个老系统和新的 CRM 之间手动搬数据,一搬就是 2 小时。

传统自动化(RPA)能帮忙吗?能,但代价高昂。RPA 靠的是"录制操作脚本"——界面稍一改动,脚本就崩。维护一个 RPA 流程的成本,有时比雇一个人还贵。

API 能帮忙吗?根本没有 API。

Computer Use 能帮忙。

因为 AI 不是通过脚本操作界面,而是像人一样"看"界面。按钮换了位置?没关系,它能找到。菜单改了名字?没关系,它能读。弹了个新窗口?没关系,它能理解。

传统方式 API 集成 RPA 脚本 没有接口?卡住 VS Computer Use 看到界面就能用 界面变了也能适应 无需任何接口
传统集成 vs Computer Use:从"需要接口"到"看到就能用"

打个比方:API 就像给不同语言的人配翻译,但前提是对方愿意说话。Computer Use 就像派了一个能看懂任何语言的人,直接去帮你操作,不管对方配不配合。

这意味着什么?

Gartner 预测,到 2026 年底,40% 的企业应用将内置 AI Agent。但真正的变革不在新应用——而在那些几十年不变的老系统。全球企业 IT 系统中,超过 70% 是没有现代 API 的"遗留系统"。Computer Use 第一次让 AI 能够触达这些系统。

换句话说:当 GUI 变成万能接口,API 就不再是唯一的选择。

听起来很美好,对吧?但我必须给你泼一盆冷水。

四、没那么美好:五个你必须知道的坑

如果你看完前面三章,已经兴奋地想把所有工作都交给 AI 了——请等一等。

Computer Use 目前还远不是一个"设置好就不用管"的技术。以下五个坑,你必须了解。

坑 1:多米诺骨牌效应

AI 操作电脑是一个多步骤的链式任务。每一步的错误都会传递到下一步。

假设一个 20 步的任务,每一步成功率 95%。你可能觉得挺高了?但算一下:0.95 的 20 次方 = 35.8%。整个任务的成功率只有 36%。

这就像多米诺骨牌——第 3 块倒错了方向,后面 17 块全完。这也是为什么目前的基准测试普遍在 70%-80% 的区间,离"放心用"还有距离。

常见误区
"单步成功率 95% = 整体任务很靠谱"。错。长链任务中,错误会指数级累积。这是 Computer Use 当前最大的技术瓶颈。

坑 2:CAPTCHA 是一堵墙

AI 无法解决 CAPTCHA 验证码。每当遇到"请证明你是人类"的弹窗,Agent 就会卡住,只能等你来帮忙。

更尴尬的是,越来越多的网站把"频繁自动操作"视为异常行为,直接触发风控。AI 操作得越快,越容易被当成机器人——这确实有点讽刺。

坑 3:成本不一定划算

每次"看屏幕"都需要调用视觉模型处理高分辨率截图。一个 20 步的任务可能需要 20+ 次截图分析,消耗大量 token。

对于那些"人做 30 秒就完成"的简单任务,用 Computer Use 可能反而更贵。这项技术的经济拐点在于重复性高、步骤多、人工成本高的场景。

坑 4:安全是一个严肃问题

你正在给 AI 完整的电脑控制权。这意味着:

Palo Alto Networks 的研究团队指出:AI Agent 面临的安全威胁不是传统的病毒或木马,而是"通过语言来攻击的新型漏洞"。一个伪装成正常网页的恶意页面,可能通过页面上的隐藏文字指令,让你的 AI Agent 做出完全出乎意料的操作。

坑 5:界面变了,AI 也会懵

虽然 Computer Use 比 RPA 更能适应界面变化,但它也不是万能的。一个大版本的 UI 改版——比如按钮从左边挪到了右边,或者整个交互流程重新设计——仍然可能让 AI 短暂"懵圈"。

好消息是,AI 比 RPA 恢复得快得多。RPA 脚本改界面就"死",AI 通常"愣一下"就能适应。但"愣一下"在关键操作(比如支付确认)里,可能就够出事了。

AI 能操作电脑,不等于你能放心让它操作。至少现在还不行。

那么,作为一个普通开发者或技术人,你现在能做什么?

五、普通开发者现在能做什么

说了这么多,你可能最想知道的是:我今天就能用上吗?怎么用?

答案是:能。而且门槛比你想的低得多。

最容易上手:Claude Cowork

如果你是 Mac 用户,打开 Claude Desktop 应用,你已经可以使用 Cowork 模式了。它能帮你:

适合场景:重复性文件处理、数据搬运、批量操作。比如"把这个文件夹里所有 CSV 按日期重命名并移到归档目录"——以前你要写脚本,现在你说一句话。

Web 自动化:OpenAI Operator

如果你的任务主要在浏览器里完成——比价、填表、抓取信息——Operator 是更好的选择。它运行在云端沙盒里,安全隔离做得更好。

开发者 API 接入

如果你想在自己的产品里集成 Computer Use 能力,Anthropic 和 OpenAI 都提供了 API。核心流程大概是这样的:

# 伪代码:Computer Use 的核心循环
while not task_completed:
    screenshot = capture_screen()        # 截取屏幕
    action = model.analyze(              # AI 分析并决策
        image=screenshot,
        task="在 CRM 中找到客户 A 的记录并导出"
    )
    execute(action)                      # 执行操作(点击/输入)
    task_completed = check_result()      # 检查是否完成

关键在第 3 行:你不需要告诉 AI "点击坐标 (340, 520)",只需要告诉它任务目标。AI 自己看屏幕、找元素、做决策。

最佳实践
低风险、高重复的任务开始。比如"每天从 3 个网站抓取竞品价格"或"把 Notion 里的会议记录同步到飞书"。不要一上来就让 AI 帮你操作银行账户。

我的建议很具体:

  1. 今天就试:打开 Claude Desktop,试一次 Cowork。给它一个简单任务,感受一下"指挥 AI 操作电脑"是什么体验。你对这项技术的直觉,比读十篇文章都有用。
  2. 列一个"我每天重复做的事"清单:然后从中挑出最无聊、最机械的那件,试试能不能交给 AI。

从"自己干"到"指挥 AI 干",中间只差一次尝试。


六、总结与展望

最后,回顾几个核心观点:

我认为,Computer Use 是 AI Agent 真正"落地"的最关键拼图。过去两年我们谈了太多 Agent 的概念,但 Agent 要真正干活,就必须能操作人类的工具。现在,它终于可以了。

这不是渐进式的改进。这是一个新品类的诞生——AI 不再是"对话伙伴",而是"数字员工"

键盘和鼠标已经等了 40 年。
它们终于等到了一个不需要休息的主人。