TECH ARTICLES
LLM Anthropic Cybersecurity

Claude Mythos:10 万亿参数的"网络安全核武器",Anthropic 为什么不敢公开发布?

Jackie Zhan 2026-04-08
目录
Mythos 到底是什么来头? 它的能力有多恐怖? 为什么 Anthropic 不敢公开发布? Project Glasswing:一场史无前例的"受控引爆" 源码泄漏还暴露了什么? 这对 AI 行业意味着什么?

2026 年 3 月 26 日,Fortune 发了一篇独家报道,标题里有一个词:Mythos

当时大多数人没太在意。毕竟 AI 圈每周都有"重磅发布",看多了都麻木了。

五天后,3 月 31 日,Anthropic 的一个工程师忘了在 .npmignore 里加一行 *.map。结果,Claude Code 的 51.2 万行 TypeScript 源码,连同 44 个隐藏功能开关、三个未发布模型的代号,全部暴露在了 npm 公开仓库里。

又过了一周,4 月 7 日,Anthropic 正式宣布:Claude Mythos Preview 已经在受控环境中运行,合作方包括苹果、微软、谷歌、英伟达。

三个时间点,串起来看,一个故事浮出水面:Anthropic 造出了一个它自己都害怕的模型

这篇文章,我想和你聊清楚三件事:Mythos 到底有多强,Anthropic 为什么不敢放出来,以及这件事对整个 AI 行业意味着什么。


Mythos 到底是什么来头?

先说名字。Mythos 是对外的品牌名,在 Anthropic 内部,这个模型的代号叫 Capybara(水豚)。

有意思吧?Anthropic 的模型命名一直用动物:Claude Opus 4.6 的内部代号是 Fennec(耳廓狐),还有一个未发布的模型叫 Numbat(袋食蚁兽)。这些代号都来自源码泄漏事件。

但 Capybara 不是普通的迭代升级。按照泄漏文档的原话:

Capybara is a new name for a new tier of model: larger and more intelligent than our Opus models — which were, until now, our most powerful.
—— Anthropic 泄漏内部文档

注意这个措辞:a new tier。不是 Opus 的下一个版本,而是一个全新的层级。

打个比方:如果说 Haiku 是经济舱,Sonnet 是商务舱,Opus 是头等舱,那 Capybara/Mythos 就是私人飞机。它不是现有产品线的延伸,而是一个单独的品类。

根据多个来源交叉验证,Mythos 的参数量级约在 10 万亿(10T)。作为参考,Claude Opus 4.6 估计在 2-3 万亿参数左右。这不是渐进式增长,这是跳崖式的规模跃迁。

数据说话
10 万亿参数是什么概念?GPT-4 最初发布时约 1.8 万亿参数,已经被称为"暴力美学"。Mythos 的参数量是 GPT-4 初版的 5.5 倍。训练成本估算在 100 亿美元级别。这不是一家公司砸钱就能复制的事,这是国家级的基础设施投入。

但参数量只是故事的一半。真正让 Mythos 成为话题中心的,不是它有多大,而是它能做什么

它的能力有多恐怖?

我先给你看一组数字,你感受一下:

基准测试Mythos PreviewClaude Opus 4.6GPT-5.4
SWE-bench Verified93.9%80.8%
SWE-bench Pro77.8%53.4%57.7%
CyberGym83.1%66.6%
Terminal-Bench 2.082.0%65.4%75.1%
GPQA Diamond94.6%

SWE-bench Pro 是业界公认最难的软件工程基准测试。Mythos 拿了 77.8%,而目前公开最强的 GPT-5.4 才 57.7%。20 个百分点的差距,在这个难度级别上,几乎意味着代际领先。

但数字是冰冷的。让我给你讲几个具体的事:

Anthropic 用 Mythos Preview 扫描了所有主流操作系统和主流浏览器的代码。结果?发现了数千个零日漏洞,其中很多是关键级别的。

你可能觉得"数千个"有点夸张。那我说一个具体的:Mythos 找到了一个 OpenBSD 里存在 27 年的远程崩溃漏洞。OpenBSD,那个以安全著称、被无数安全专家审计过的操作系统,藏了 27 年的 bug,被一个 AI 模型几小时内翻了出来。

还有一个更炸裂的:FFmpeg——那个几乎所有视频软件都在用的开源库——有一个存在了 16 年的漏洞,自动化扫描工具跑了 500 万次测试都没发现。Mythos 发现了。

反例警示
在你为 Mythos 的能力欢呼之前,泄漏的源码里有一个令人警醒的数据:Capybara v8 的虚假声明率高达 29-30%,而 v4 版本只有 16.7%。换句话说,模型越强大,它"一本正经胡说八道"的概率反而上升了。能力越大,风险越大,这不是口号。

但最让安全界震惊的,是这件事:

Mythos 独立完成了一次完整的浏览器漏洞利用链——它把四个不同的漏洞串联在一起,写了一个复杂的 JIT 堆喷射程序,先逃逸渲染器沙箱,再逃逸操作系统沙箱,最后在 Linux 上利用竞态条件和 KASLR 绕过实现了本地提权。

这不是回答"这个漏洞是什么"级别的任务。这是"自己发现漏洞、自己设计攻击路径、自己写利用代码、自己完成提权"的完整攻击链。以前只有顶级安全团队花几周才能完成的工作,Mythos 自主完成了。

当一个 AI 模型能独立完成"发现漏洞→设计利用→编写武器"的全链条时,它就不再只是一个工具,而是一种能力。


为什么 Anthropic 不敢公开发布?

现在你理解了 Mythos 的能力,那问题来了:既然这么强,为什么不直接发布赚钱?

答案藏在一个类比里。

你知道核物理学家在 1940 年代面临的困境吗?他们发现了核裂变,这项技术可以提供几乎无限的清洁能源。但同一项技术,也可以造出核弹。

Mythos 面临的,是 AI 领域第一次真正的"核困境"。

如果 Anthropic 把 Mythos 开放 API 访问,任何人都可以用它来扫描软件漏洞。好人用它来修漏洞?当然可以。但坏人也可以用它来找漏洞——然后不是修,而是利用。

而且 Mythos 找漏洞的效率远超人类。一个安全团队一年可能发现几十个零日漏洞。Mythos 在几周内发现了数千个。如果这种能力被恶意使用,后果不堪设想。

Anthropic 自己在泄漏的内部文档中写道,Mythos 构成了"前所未有的网络安全风险"。一家公司公开说自己的产品有"前所未有的风险",这在商业史上极其罕见。

Claude Mythos (10T) 防御侧(Project Glasswing) 漏洞扫描 补丁生成 威胁检测 安全审计 攻击侧(潜在滥用) 零日挖掘 武器化利用 自动渗透 规模化攻击 受控开放 必须阻止
Mythos 的双刃剑:同一种能力,用在防御是铠甲,用在攻击是利刃

这就是 Anthropic 不敢公开发布的原因。不是技术不成熟,不是产品没准备好,而是这个模型的攻击能力太强了,强到如果不加控制地释放出去,可能会对全球互联网基础设施构成系统性威胁。

想想看:全世界的银行系统、电网、医院、交通控制——它们的软件里都有漏洞。以前这些漏洞的安全系数在于"发现它们很难"。但当一个 AI 能以工业级效率批量发现漏洞时,"难以发现"就不再是安全屏障了。

Mythos 的出现,意味着"通过默默无闻来保证安全"(security through obscurity)的时代,正式终结了。


Project Glasswing:一场史无前例的"受控引爆"

那怎么办?把 Mythos 锁在保险箱里永远不用?

Anthropic 选了另一条路:Project Glasswing(玻璃翼蝶计划)。

这个名字起得很讲究。玻璃翼蝶(Glasswing butterfly)是一种翅膀近乎透明的蝴蝶——你能看穿它,但它依然在飞。暗喻:透明 + 行动

4 月 7 日正式宣布的 Glasswing 计划,核心思路是:不把 Mythos 公开给所有人,而是让一小群经过审核的组织,在受控环境下使用它来做防御性安全工作

12 个创始合作方的名单,你看一眼就知道这件事有多大:

加上额外受邀的组织,总共约 40 家机构能接触到 Mythos Preview。

你注意到了吗?谷歌和微软都在里面。这意味着什么?意味着在网络安全面前,竞争关系可以暂时搁置。Anthropic 把自己最强的模型借给了竞争对手,因为漏洞不分阵营,攻击者不看你用的是 AWS 还是 Azure。

insider 视角
Anthropic 为 Glasswing 计划承诺了高达 1 亿美元的模型使用额度,外加 400 万美元直接捐赠给开源安全组织。这不是商业合作,这是防御联盟。Simon Willison(知名开发者、Django 联合创始人)评价说:"限制 Mythos 只给安全研究人员使用——我觉得这是必要的。"

Glasswing 还提到一个概念:Cyber Verification Program(网络安全验证计划)。未来,合法的安全研究人员可以通过验证身份后获得 Mythos 的有限访问权限。这本质上是在建立一个"AI 安全能力的准入制度"。

这在 AI 行业是前所未有的。以前的模式是:模型发布→所有人都能用→出了问题再打补丁。Glasswing 反过来了:先建围栏,再放模型

如果说 ChatGPT 定义了"AI 的大众化",那 Project Glasswing 定义的是"AI 能力的分级管控"。这可能是比模型本身更重要的创新。


源码泄漏还暴露了什么?

聊到这里,我想岔开一下,讲一个有意思的花絮。

Mythos 的存在之所以被公众知道,不是因为 Anthropic 主动官宣,而是因为 3 月底那次史诗级的源码泄漏。那次泄漏不仅暴露了 Mythos/Capybara 的代号,还揭开了 Anthropic 整个未发布产品路线图的面纱。

泄漏的 51.2 万行源码里,藏着一个比 Mythos 更让开发者兴奋的东西:KAIROS

KAIROS 取名自古希腊语中"恰当时机"(καιρός)的概念,和 Chronos(线性时间)相对。在源码中被引用了超过 150 次,是一个完全构建好但从未发布的功能。

它是什么?一句话:一个永远在后台运行的 AI 守护进程

现在你用 Claude Code,是"你问一句,它答一句"的模式。KAIROS 要做的是:你不问它,它也在后台监控你的代码仓库、你的 GitHub webhooks、你的 PR 状态。当它判断"现在是采取行动的恰当时机"时,它会主动做事——发通知、提交 PR 审查、甚至生成代码修复建议。

打个比方:现在的 Claude Code 像一个随叫随到的助手,你喊它来它才来。KAIROS 像一个住在你办公室里的同事,你不说话它也在默默帮你盯着事情,该出手时就出手。

// KAIROS 的核心决策循环(根据泄漏源码重构)
// 每次 tick,KAIROS 做一个二选一:行动 or 睡眠
async function onTick(context: KairosContext) {
  const shouldAct = await evaluateProactiveAction(context);

  if (shouldAct) {
    // 限制:主动行为不能阻塞超过 15 秒
    await executeWithBudget(shouldAct, { maxBlockingMs: 15_000 });
  } else {
    // 没有有用的事可做?必须显式调用 SleepTool
    await tools.sleep();
  }
}

关键设计约束:KAIROS 的主动行为不能阻塞超过 15 秒。这意味着它不会突然占用你的终端做一个大操作,而是像一个有分寸的同事——快速做完,不打扰你的工作流。

除了 KAIROS,泄漏还暴露了其他未发布功能:

常见误解
很多人以为源码泄漏是一次"安全事故"。严格来说,没有任何客户数据、凭证或模型权重被泄漏。泄漏的是 Claude Code 这个客户端工具的 TypeScript 源码——相当于你看到了遥控器的电路图,但遥控器控制的那台电视(模型本身)完好无损。Anthropic 官方确认这是"打包配置的人为失误,不是安全漏洞"。

但不管怎么说,这次泄漏的社会效应是惊人的:原始曝光帖在 X(Twitter)上获得了 1600 万次浏览。泄漏后 48 小时内,开发者社区的态度从"Anthropic 又出事了"转变为"天哪,看看 Anthropic 在造什么"。

意外泄漏成了最好的产品广告——但这份广告背后展示的野心,比任何营销团队能策划的都大。


这对 AI 行业意味着什么?

聊完 Mythos 的技术细节和 Glasswing 的治理模式,我想退后一步,看看更大的图景。

Mythos 的出现,标志着 AI 行业进入了一个全新的阶段。我把它叫做"能力溢出"时代

什么意思?过去几年,AI 公司的竞争逻辑是"做得更强"——更大的模型、更高的分数、更多的能力。所有人都在比谁的 benchmark 更高。

但 Mythos 第一次触碰到了一个天花板:模型强到公司自己不敢发布

这就像汽车行业。早期比的是谁的车更快,200 公里、300 公里、400 公里时速。但到了某个点,问题不再是"能不能更快",而是"这么快的车,普通人能上路吗?需要什么样的道路、什么样的交规、什么样的驾照?"

Mythos 就是那辆 400 公里时速的车。它证明了 scaling law 在 10T 参数级别依然有效——模型越大,能力确实越强。但它也提出了一个此前被忽视的问题:当 AI 的能力超过了安全边界,发布策略本身就成了一项核心技术

这对行业的影响是深远的:

第一,AI 安全从"口号"变成了"门槛"。以前喊"负责任的 AI"更像是公关话术。Mythos 之后,如果你的模型有同等级的攻击能力但没有 Glasswing 级别的分发管控,你可能连发布都发布不了——不是技术上不能,而是法律和社会压力不允许。

第二,"模型分级"将成为常态。就像药品分处方药和非处方药一样,AI 模型可能也会被分为"通用发布"和"受控发布"两个层级。Mythos 级别的模型只有经过认证的组织才能使用。

第三,防御者终于有了不对称优势。在网络安全领域,一直是"攻击者有不对称优势"——防御者要守住所有门,攻击者只需要找到一扇没锁的。但如果防御者有了 Mythos 这样的工具,能比攻击者更快地发现漏洞并修复,攻防天平可能第一次向防御侧倾斜。

模型能力的竞争,正在让位给模型治理的竞争。谁能在"最大能力"和"最小风险"之间画出最精准的线,谁就赢了下一个十年。


写在最后

回顾整件事,我做两个预测,给自己设个 deadline:

预测一:2026 年底之前,至少会出现一个国家级的"AI 模型分级管控"框架。Mythos 的先例已经证明,有些 AI 能力不适合无差别公开。欧盟的 AI Act 会率先响应,美国会跟进。不是"要不要管"的问题,而是"怎么管"的问题。

预测二:2027 年 Q2 之前,Anthropic 会正式发布 Mythos 的公开版本,但会有严格的使用限制。Glasswing 计划本质上是一次大规模的"安全压力测试"。当 Anthropic 确认防御侧的基础设施足够健壮时,他们会有选择地开放。这个窗口期大约在 9-12 个月。

Anthropic 在 Glasswing 的公告中留了一句话,我觉得值得你记住:

We eventually want to safely deploy Mythos-class models at scale when new safeguards are in place.
—— Anthropic, Project Glasswing 公告

关键词是 "when",不是 "if"。他们没说不发布,而是说"等条件成熟了再发布"。

这就是 Mythos 的故事:一个强大到创造者自己都需要先建好围栏的 AI 模型。它让我们第一次真切地感受到,AI 能力的增长速度,已经超过了人类社会消化这些能力的速度。

不是 AI 太快了,是我们的治理框架太慢了。

半年后回来,看看我说得对不对。