Claude Mythos：10 万亿参数的"网络安全核武器"，Anthropic 为什么不敢公开发布？

2026 年 3 月 26 日，Fortune 发了一篇独家报道，标题里有一个词：Mythos。

当时大多数人没太在意。毕竟 AI 圈每周都有"重磅发布"，看多了都麻木了。

五天后，3 月 31 日，Anthropic 的一个工程师忘了在 .npmignore 里加一行 *.map。结果，Claude Code 的 51.2 万行 TypeScript 源码，连同 44 个隐藏功能开关、三个未发布模型的代号，全部暴露在了 npm 公开仓库里。

又过了一周，4 月 7 日，Anthropic 正式宣布：Claude Mythos Preview 已经在受控环境中运行，合作方包括苹果、微软、谷歌、英伟达。

三个时间点，串起来看，一个故事浮出水面：Anthropic 造出了一个它自己都害怕的模型。

这篇文章，我想和你聊清楚三件事：Mythos 到底有多强，Anthropic 为什么不敢放出来，以及这件事对整个 AI 行业意味着什么。

Mythos 到底是什么来头？

先说名字。Mythos 是对外的品牌名，在 Anthropic 内部，这个模型的代号叫 Capybara（水豚）。

有意思吧？Anthropic 的模型命名一直用动物：Claude Opus 4.6 的内部代号是 Fennec（耳廓狐），还有一个未发布的模型叫 Numbat（袋食蚁兽）。这些代号都来自源码泄漏事件。

但 Capybara 不是普通的迭代升级。按照泄漏文档的原话：

Capybara is a new name for a new tier of model: larger and more intelligent than our Opus models — which were, until now, our most powerful.
—— Anthropic 泄漏内部文档

注意这个措辞：a new tier。不是 Opus 的下一个版本，而是一个全新的层级。

打个比方：如果说 Haiku 是经济舱，Sonnet 是商务舱，Opus 是头等舱，那 Capybara/Mythos 就是私人飞机。它不是现有产品线的延伸，而是一个单独的品类。

根据多个来源交叉验证，Mythos 的参数量级约在 10 万亿（10T）。作为参考，Claude Opus 4.6 估计在 2-3 万亿参数左右。这不是渐进式增长，这是跳崖式的规模跃迁。

数据说话

10 万亿参数是什么概念？GPT-4 最初发布时约 1.8 万亿参数，已经被称为"暴力美学"。Mythos 的参数量是 GPT-4 初版的 5.5 倍。训练成本估算在 100 亿美元级别。这不是一家公司砸钱就能复制的事，这是国家级的基础设施投入。

但参数量只是故事的一半。真正让 Mythos 成为话题中心的，不是它有多大，而是它能做什么。

它的能力有多恐怖？

我先给你看一组数字，你感受一下：

基准测试	Mythos Preview	Claude Opus 4.6	GPT-5.4
SWE-bench Verified	93.9%	80.8%	—
SWE-bench Pro	77.8%	53.4%	57.7%
CyberGym	83.1%	66.6%	—
Terminal-Bench 2.0	82.0%	65.4%	75.1%
GPQA Diamond	94.6%	—	—

SWE-bench Pro 是业界公认最难的软件工程基准测试。Mythos 拿了 77.8%，而目前公开最强的 GPT-5.4 才 57.7%。20 个百分点的差距，在这个难度级别上，几乎意味着代际领先。

但数字是冰冷的。让我给你讲几个具体的事：

Anthropic 用 Mythos Preview 扫描了所有主流操作系统和主流浏览器的代码。结果？发现了数千个零日漏洞，其中很多是关键级别的。

你可能觉得"数千个"有点夸张。那我说一个具体的：Mythos 找到了一个 OpenBSD 里存在 27 年的远程崩溃漏洞。OpenBSD，那个以安全著称、被无数安全专家审计过的操作系统，藏了 27 年的 bug，被一个 AI 模型几小时内翻了出来。

还有一个更炸裂的：FFmpeg——那个几乎所有视频软件都在用的开源库——有一个存在了 16 年的漏洞，自动化扫描工具跑了 500 万次测试都没发现。Mythos 发现了。

反例警示

在你为 Mythos 的能力欢呼之前，泄漏的源码里有一个令人警醒的数据：Capybara v8 的虚假声明率高达 29-30%，而 v4 版本只有 16.7%。换句话说，模型越强大，它"一本正经胡说八道"的概率反而上升了。能力越大，风险越大，这不是口号。

但最让安全界震惊的，是这件事：

Mythos 独立完成了一次完整的浏览器漏洞利用链——它把四个不同的漏洞串联在一起，写了一个复杂的 JIT 堆喷射程序，先逃逸渲染器沙箱，再逃逸操作系统沙箱，最后在 Linux 上利用竞态条件和 KASLR 绕过实现了本地提权。

这不是回答"这个漏洞是什么"级别的任务。这是"自己发现漏洞、自己设计攻击路径、自己写利用代码、自己完成提权"的完整攻击链。以前只有顶级安全团队花几周才能完成的工作，Mythos 自主完成了。

当一个 AI 模型能独立完成"发现漏洞→设计利用→编写武器"的全链条时，它就不再只是一个工具，而是一种能力。

为什么 Anthropic 不敢公开发布？

现在你理解了 Mythos 的能力，那问题来了：既然这么强，为什么不直接发布赚钱？

答案藏在一个类比里。

你知道核物理学家在 1940 年代面临的困境吗？他们发现了核裂变，这项技术可以提供几乎无限的清洁能源。但同一项技术，也可以造出核弹。

Mythos 面临的，是 AI 领域第一次真正的"核困境"。

如果 Anthropic 把 Mythos 开放 API 访问，任何人都可以用它来扫描软件漏洞。好人用它来修漏洞？当然可以。但坏人也可以用它来找漏洞——然后不是修，而是利用。

而且 Mythos 找漏洞的效率远超人类。一个安全团队一年可能发现几十个零日漏洞。Mythos 在几周内发现了数千个。如果这种能力被恶意使用，后果不堪设想。

Anthropic 自己在泄漏的内部文档中写道，Mythos 构成了"前所未有的网络安全风险"。一家公司公开说自己的产品有"前所未有的风险"，这在商业史上极其罕见。

Mythos 的双刃剑：同一种能力，用在防御是铠甲，用在攻击是利刃

这就是 Anthropic 不敢公开发布的原因。不是技术不成熟，不是产品没准备好，而是这个模型的攻击能力太强了，强到如果不加控制地释放出去，可能会对全球互联网基础设施构成系统性威胁。

想想看：全世界的银行系统、电网、医院、交通控制——它们的软件里都有漏洞。以前这些漏洞的安全系数在于"发现它们很难"。但当一个 AI 能以工业级效率批量发现漏洞时，"难以发现"就不再是安全屏障了。

Mythos 的出现，意味着"通过默默无闻来保证安全"（security through obscurity）的时代，正式终结了。

Project Glasswing：一场史无前例的"受控引爆"

那怎么办？把 Mythos 锁在保险箱里永远不用？

Anthropic 选了另一条路：Project Glasswing（玻璃翼蝶计划）。

这个名字起得很讲究。玻璃翼蝶（Glasswing butterfly）是一种翅膀近乎透明的蝴蝶——你能看穿它，但它依然在飞。暗喻：透明 + 行动。

4 月 7 日正式宣布的 Glasswing 计划，核心思路是：不把 Mythos 公开给所有人，而是让一小群经过审核的组织，在受控环境下使用它来做防御性安全工作。

12 个创始合作方的名单，你看一眼就知道这件事有多大：

AWS——全球最大的云服务商
苹果——全球市值最高的公司
谷歌——Anthropic 的竞争对手（没看错）
微软——OpenAI 的投资方（也没看错）
英伟达——AI 算力的命脉
CrowdStrike——全球顶级网络安全公司
Palo Alto Networks——另一家顶级安全公司
Cisco——网络基础设施巨头
Broadcom——芯片和基础设施
Linux Foundation——开源生态的守护者
JPMorgan Chase——全球最大的银行之一

加上额外受邀的组织，总共约 40 家机构能接触到 Mythos Preview。

你注意到了吗？谷歌和微软都在里面。这意味着什么？意味着在网络安全面前，竞争关系可以暂时搁置。Anthropic 把自己最强的模型借给了竞争对手，因为漏洞不分阵营，攻击者不看你用的是 AWS 还是 Azure。

insider 视角

Anthropic 为 Glasswing 计划承诺了高达 1 亿美元的模型使用额度，外加 400 万美元直接捐赠给开源安全组织。这不是商业合作，这是防御联盟。Simon Willison（知名开发者、Django 联合创始人）评价说："限制 Mythos 只给安全研究人员使用——我觉得这是必要的。"

Glasswing 还提到一个概念：Cyber Verification Program（网络安全验证计划）。未来，合法的安全研究人员可以通过验证身份后获得 Mythos 的有限访问权限。这本质上是在建立一个"AI 安全能力的准入制度"。

这在 AI 行业是前所未有的。以前的模式是：模型发布→所有人都能用→出了问题再打补丁。Glasswing 反过来了：先建围栏，再放模型。

如果说 ChatGPT 定义了"AI 的大众化"，那 Project Glasswing 定义的是"AI 能力的分级管控"。这可能是比模型本身更重要的创新。

源码泄漏还暴露了什么？

聊到这里，我想岔开一下，讲一个有意思的花絮。

Mythos 的存在之所以被公众知道，不是因为 Anthropic 主动官宣，而是因为 3 月底那次史诗级的源码泄漏。那次泄漏不仅暴露了 Mythos/Capybara 的代号，还揭开了 Anthropic 整个未发布产品路线图的面纱。

泄漏的 51.2 万行源码里，藏着一个比 Mythos 更让开发者兴奋的东西：KAIROS。

KAIROS 取名自古希腊语中"恰当时机"（καιρός）的概念，和 Chronos（线性时间）相对。在源码中被引用了超过 150 次，是一个完全构建好但从未发布的功能。

它是什么？一句话：一个永远在后台运行的 AI 守护进程。

现在你用 Claude Code，是"你问一句，它答一句"的模式。KAIROS 要做的是：你不问它，它也在后台监控你的代码仓库、你的 GitHub webhooks、你的 PR 状态。当它判断"现在是采取行动的恰当时机"时，它会主动做事——发通知、提交 PR 审查、甚至生成代码修复建议。

打个比方：现在的 Claude Code 像一个随叫随到的助手，你喊它来它才来。KAIROS 像一个住在你办公室里的同事，你不说话它也在默默帮你盯着事情，该出手时就出手。

// KAIROS 的核心决策循环（根据泄漏源码重构）
// 每次 tick，KAIROS 做一个二选一：行动 or 睡眠
async function onTick(context: KairosContext) {
  const shouldAct = await evaluateProactiveAction(context);

  if (shouldAct) {
    // 限制：主动行为不能阻塞超过 15 秒
    await executeWithBudget(shouldAct, { maxBlockingMs: 15_000 });
  } else {
    // 没有有用的事可做？必须显式调用 SleepTool
    await tools.sleep();
  }
}

关键设计约束：KAIROS 的主动行为不能阻塞超过 15 秒。这意味着它不会突然占用你的终端做一个大操作，而是像一个有分寸的同事——快速做完，不打扰你的工作流。

除了 KAIROS，泄漏还暴露了其他未发布功能：

autoDream：AI 在你空闲时自动整理和优化自己的记忆——合并重复记忆、消除矛盾、把模糊观察转化为确定性事实
Ultraplan：一个把资源密集型任务发送到云端处理的子 agent
Buddy：一个类似电子宠物的 AI 伴侣，会对你的代码发表评论（是的，你没看错）
Undercover Mode：Anthropic 员工在开源项目中使用 Claude Code 时，隐藏 AI 参与痕迹的功能（这个引发了巨大争议）

常见误解

很多人以为源码泄漏是一次"安全事故"。严格来说，没有任何客户数据、凭证或模型权重被泄漏。泄漏的是 Claude Code 这个客户端工具的 TypeScript 源码——相当于你看到了遥控器的电路图，但遥控器控制的那台电视（模型本身）完好无损。Anthropic 官方确认这是"打包配置的人为失误，不是安全漏洞"。

但不管怎么说，这次泄漏的社会效应是惊人的：原始曝光帖在 X（Twitter）上获得了 1600 万次浏览。泄漏后 48 小时内，开发者社区的态度从"Anthropic 又出事了"转变为"天哪，看看 Anthropic 在造什么"。

意外泄漏成了最好的产品广告——但这份广告背后展示的野心，比任何营销团队能策划的都大。

这对 AI 行业意味着什么？

聊完 Mythos 的技术细节和 Glasswing 的治理模式，我想退后一步，看看更大的图景。

Mythos 的出现，标志着 AI 行业进入了一个全新的阶段。我把它叫做"能力溢出"时代。

什么意思？过去几年，AI 公司的竞争逻辑是"做得更强"——更大的模型、更高的分数、更多的能力。所有人都在比谁的 benchmark 更高。

但 Mythos 第一次触碰到了一个天花板：模型强到公司自己不敢发布。

这就像汽车行业。早期比的是谁的车更快，200 公里、300 公里、400 公里时速。但到了某个点，问题不再是"能不能更快"，而是"这么快的车，普通人能上路吗？需要什么样的道路、什么样的交规、什么样的驾照？"

Mythos 就是那辆 400 公里时速的车。它证明了 scaling law 在 10T 参数级别依然有效——模型越大，能力确实越强。但它也提出了一个此前被忽视的问题：当 AI 的能力超过了安全边界，发布策略本身就成了一项核心技术。

这对行业的影响是深远的：

第一，AI 安全从"口号"变成了"门槛"。以前喊"负责任的 AI"更像是公关话术。Mythos 之后，如果你的模型有同等级的攻击能力但没有 Glasswing 级别的分发管控，你可能连发布都发布不了——不是技术上不能，而是法律和社会压力不允许。

第二，"模型分级"将成为常态。就像药品分处方药和非处方药一样，AI 模型可能也会被分为"通用发布"和"受控发布"两个层级。Mythos 级别的模型只有经过认证的组织才能使用。

第三，防御者终于有了不对称优势。在网络安全领域，一直是"攻击者有不对称优势"——防御者要守住所有门，攻击者只需要找到一扇没锁的。但如果防御者有了 Mythos 这样的工具，能比攻击者更快地发现漏洞并修复，攻防天平可能第一次向防御侧倾斜。

模型能力的竞争，正在让位给模型治理的竞争。谁能在"最大能力"和"最小风险"之间画出最精准的线，谁就赢了下一个十年。

写在最后

回顾整件事，我做两个预测，给自己设个 deadline：

预测一：2026 年底之前，至少会出现一个国家级的"AI 模型分级管控"框架。Mythos 的先例已经证明，有些 AI 能力不适合无差别公开。欧盟的 AI Act 会率先响应，美国会跟进。不是"要不要管"的问题，而是"怎么管"的问题。

预测二：2027 年 Q2 之前，Anthropic 会正式发布 Mythos 的公开版本，但会有严格的使用限制。Glasswing 计划本质上是一次大规模的"安全压力测试"。当 Anthropic 确认防御侧的基础设施足够健壮时，他们会有选择地开放。这个窗口期大约在 9-12 个月。

Anthropic 在 Glasswing 的公告中留了一句话，我觉得值得你记住：

We eventually want to safely deploy Mythos-class models at scale when new safeguards are in place.
—— Anthropic, Project Glasswing 公告

关键词是 "when"，不是 "if"。他们没说不发布，而是说"等条件成熟了再发布"。

这就是 Mythos 的故事：一个强大到创造者自己都需要先建好围栏的 AI 模型。它让我们第一次真切地感受到，AI 能力的增长速度，已经超过了人类社会消化这些能力的速度。

不是 AI 太快了，是我们的治理框架太慢了。

半年后回来，看看我说得对不对。