Claude Mythos:10 万亿参数的"网络安全核武器",Anthropic 为什么不敢公开发布?
2026 年 3 月 26 日,Fortune 发了一篇独家报道,标题里有一个词:Mythos。
当时大多数人没太在意。毕竟 AI 圈每周都有"重磅发布",看多了都麻木了。
五天后,3 月 31 日,Anthropic 的一个工程师忘了在 .npmignore 里加一行 *.map。结果,Claude Code 的 51.2 万行 TypeScript 源码,连同 44 个隐藏功能开关、三个未发布模型的代号,全部暴露在了 npm 公开仓库里。
又过了一周,4 月 7 日,Anthropic 正式宣布:Claude Mythos Preview 已经在受控环境中运行,合作方包括苹果、微软、谷歌、英伟达。
三个时间点,串起来看,一个故事浮出水面:Anthropic 造出了一个它自己都害怕的模型。
这篇文章,我想和你聊清楚三件事:Mythos 到底有多强,Anthropic 为什么不敢放出来,以及这件事对整个 AI 行业意味着什么。
Mythos 到底是什么来头?
先说名字。Mythos 是对外的品牌名,在 Anthropic 内部,这个模型的代号叫 Capybara(水豚)。
有意思吧?Anthropic 的模型命名一直用动物:Claude Opus 4.6 的内部代号是 Fennec(耳廓狐),还有一个未发布的模型叫 Numbat(袋食蚁兽)。这些代号都来自源码泄漏事件。
但 Capybara 不是普通的迭代升级。按照泄漏文档的原话:
Capybara is a new name for a new tier of model: larger and more intelligent than our Opus models — which were, until now, our most powerful.
—— Anthropic 泄漏内部文档
注意这个措辞:a new tier。不是 Opus 的下一个版本,而是一个全新的层级。
打个比方:如果说 Haiku 是经济舱,Sonnet 是商务舱,Opus 是头等舱,那 Capybara/Mythos 就是私人飞机。它不是现有产品线的延伸,而是一个单独的品类。
根据多个来源交叉验证,Mythos 的参数量级约在 10 万亿(10T)。作为参考,Claude Opus 4.6 估计在 2-3 万亿参数左右。这不是渐进式增长,这是跳崖式的规模跃迁。
但参数量只是故事的一半。真正让 Mythos 成为话题中心的,不是它有多大,而是它能做什么。
它的能力有多恐怖?
我先给你看一组数字,你感受一下:
| 基准测试 | Mythos Preview | Claude Opus 4.6 | GPT-5.4 |
|---|---|---|---|
| SWE-bench Verified | 93.9% | 80.8% | — |
| SWE-bench Pro | 77.8% | 53.4% | 57.7% |
| CyberGym | 83.1% | 66.6% | — |
| Terminal-Bench 2.0 | 82.0% | 65.4% | 75.1% |
| GPQA Diamond | 94.6% | — | — |
SWE-bench Pro 是业界公认最难的软件工程基准测试。Mythos 拿了 77.8%,而目前公开最强的 GPT-5.4 才 57.7%。20 个百分点的差距,在这个难度级别上,几乎意味着代际领先。
但数字是冰冷的。让我给你讲几个具体的事:
Anthropic 用 Mythos Preview 扫描了所有主流操作系统和主流浏览器的代码。结果?发现了数千个零日漏洞,其中很多是关键级别的。
你可能觉得"数千个"有点夸张。那我说一个具体的:Mythos 找到了一个 OpenBSD 里存在 27 年的远程崩溃漏洞。OpenBSD,那个以安全著称、被无数安全专家审计过的操作系统,藏了 27 年的 bug,被一个 AI 模型几小时内翻了出来。
还有一个更炸裂的:FFmpeg——那个几乎所有视频软件都在用的开源库——有一个存在了 16 年的漏洞,自动化扫描工具跑了 500 万次测试都没发现。Mythos 发现了。
但最让安全界震惊的,是这件事:
Mythos 独立完成了一次完整的浏览器漏洞利用链——它把四个不同的漏洞串联在一起,写了一个复杂的 JIT 堆喷射程序,先逃逸渲染器沙箱,再逃逸操作系统沙箱,最后在 Linux 上利用竞态条件和 KASLR 绕过实现了本地提权。
这不是回答"这个漏洞是什么"级别的任务。这是"自己发现漏洞、自己设计攻击路径、自己写利用代码、自己完成提权"的完整攻击链。以前只有顶级安全团队花几周才能完成的工作,Mythos 自主完成了。
当一个 AI 模型能独立完成"发现漏洞→设计利用→编写武器"的全链条时,它就不再只是一个工具,而是一种能力。
为什么 Anthropic 不敢公开发布?
现在你理解了 Mythos 的能力,那问题来了:既然这么强,为什么不直接发布赚钱?
答案藏在一个类比里。
你知道核物理学家在 1940 年代面临的困境吗?他们发现了核裂变,这项技术可以提供几乎无限的清洁能源。但同一项技术,也可以造出核弹。
Mythos 面临的,是 AI 领域第一次真正的"核困境"。
如果 Anthropic 把 Mythos 开放 API 访问,任何人都可以用它来扫描软件漏洞。好人用它来修漏洞?当然可以。但坏人也可以用它来找漏洞——然后不是修,而是利用。
而且 Mythos 找漏洞的效率远超人类。一个安全团队一年可能发现几十个零日漏洞。Mythos 在几周内发现了数千个。如果这种能力被恶意使用,后果不堪设想。
Anthropic 自己在泄漏的内部文档中写道,Mythos 构成了"前所未有的网络安全风险"。一家公司公开说自己的产品有"前所未有的风险",这在商业史上极其罕见。
这就是 Anthropic 不敢公开发布的原因。不是技术不成熟,不是产品没准备好,而是这个模型的攻击能力太强了,强到如果不加控制地释放出去,可能会对全球互联网基础设施构成系统性威胁。
想想看:全世界的银行系统、电网、医院、交通控制——它们的软件里都有漏洞。以前这些漏洞的安全系数在于"发现它们很难"。但当一个 AI 能以工业级效率批量发现漏洞时,"难以发现"就不再是安全屏障了。
Mythos 的出现,意味着"通过默默无闻来保证安全"(security through obscurity)的时代,正式终结了。
Project Glasswing:一场史无前例的"受控引爆"
那怎么办?把 Mythos 锁在保险箱里永远不用?
Anthropic 选了另一条路:Project Glasswing(玻璃翼蝶计划)。
这个名字起得很讲究。玻璃翼蝶(Glasswing butterfly)是一种翅膀近乎透明的蝴蝶——你能看穿它,但它依然在飞。暗喻:透明 + 行动。
4 月 7 日正式宣布的 Glasswing 计划,核心思路是:不把 Mythos 公开给所有人,而是让一小群经过审核的组织,在受控环境下使用它来做防御性安全工作。
12 个创始合作方的名单,你看一眼就知道这件事有多大:
- AWS——全球最大的云服务商
- 苹果——全球市值最高的公司
- 谷歌——Anthropic 的竞争对手(没看错)
- 微软——OpenAI 的投资方(也没看错)
- 英伟达——AI 算力的命脉
- CrowdStrike——全球顶级网络安全公司
- Palo Alto Networks——另一家顶级安全公司
- Cisco——网络基础设施巨头
- Broadcom——芯片和基础设施
- Linux Foundation——开源生态的守护者
- JPMorgan Chase——全球最大的银行之一
加上额外受邀的组织,总共约 40 家机构能接触到 Mythos Preview。
你注意到了吗?谷歌和微软都在里面。这意味着什么?意味着在网络安全面前,竞争关系可以暂时搁置。Anthropic 把自己最强的模型借给了竞争对手,因为漏洞不分阵营,攻击者不看你用的是 AWS 还是 Azure。
Glasswing 还提到一个概念:Cyber Verification Program(网络安全验证计划)。未来,合法的安全研究人员可以通过验证身份后获得 Mythos 的有限访问权限。这本质上是在建立一个"AI 安全能力的准入制度"。
这在 AI 行业是前所未有的。以前的模式是:模型发布→所有人都能用→出了问题再打补丁。Glasswing 反过来了:先建围栏,再放模型。
如果说 ChatGPT 定义了"AI 的大众化",那 Project Glasswing 定义的是"AI 能力的分级管控"。这可能是比模型本身更重要的创新。
源码泄漏还暴露了什么?
聊到这里,我想岔开一下,讲一个有意思的花絮。
Mythos 的存在之所以被公众知道,不是因为 Anthropic 主动官宣,而是因为 3 月底那次史诗级的源码泄漏。那次泄漏不仅暴露了 Mythos/Capybara 的代号,还揭开了 Anthropic 整个未发布产品路线图的面纱。
泄漏的 51.2 万行源码里,藏着一个比 Mythos 更让开发者兴奋的东西:KAIROS。
KAIROS 取名自古希腊语中"恰当时机"(καιρός)的概念,和 Chronos(线性时间)相对。在源码中被引用了超过 150 次,是一个完全构建好但从未发布的功能。
它是什么?一句话:一个永远在后台运行的 AI 守护进程。
现在你用 Claude Code,是"你问一句,它答一句"的模式。KAIROS 要做的是:你不问它,它也在后台监控你的代码仓库、你的 GitHub webhooks、你的 PR 状态。当它判断"现在是采取行动的恰当时机"时,它会主动做事——发通知、提交 PR 审查、甚至生成代码修复建议。
打个比方:现在的 Claude Code 像一个随叫随到的助手,你喊它来它才来。KAIROS 像一个住在你办公室里的同事,你不说话它也在默默帮你盯着事情,该出手时就出手。
// KAIROS 的核心决策循环(根据泄漏源码重构)
// 每次 tick,KAIROS 做一个二选一:行动 or 睡眠
async function onTick(context: KairosContext) {
const shouldAct = await evaluateProactiveAction(context);
if (shouldAct) {
// 限制:主动行为不能阻塞超过 15 秒
await executeWithBudget(shouldAct, { maxBlockingMs: 15_000 });
} else {
// 没有有用的事可做?必须显式调用 SleepTool
await tools.sleep();
}
}
关键设计约束:KAIROS 的主动行为不能阻塞超过 15 秒。这意味着它不会突然占用你的终端做一个大操作,而是像一个有分寸的同事——快速做完,不打扰你的工作流。
除了 KAIROS,泄漏还暴露了其他未发布功能:
- autoDream:AI 在你空闲时自动整理和优化自己的记忆——合并重复记忆、消除矛盾、把模糊观察转化为确定性事实
- Ultraplan:一个把资源密集型任务发送到云端处理的子 agent
- Buddy:一个类似电子宠物的 AI 伴侣,会对你的代码发表评论(是的,你没看错)
- Undercover Mode:Anthropic 员工在开源项目中使用 Claude Code 时,隐藏 AI 参与痕迹的功能(这个引发了巨大争议)
但不管怎么说,这次泄漏的社会效应是惊人的:原始曝光帖在 X(Twitter)上获得了 1600 万次浏览。泄漏后 48 小时内,开发者社区的态度从"Anthropic 又出事了"转变为"天哪,看看 Anthropic 在造什么"。
意外泄漏成了最好的产品广告——但这份广告背后展示的野心,比任何营销团队能策划的都大。
这对 AI 行业意味着什么?
聊完 Mythos 的技术细节和 Glasswing 的治理模式,我想退后一步,看看更大的图景。
Mythos 的出现,标志着 AI 行业进入了一个全新的阶段。我把它叫做"能力溢出"时代。
什么意思?过去几年,AI 公司的竞争逻辑是"做得更强"——更大的模型、更高的分数、更多的能力。所有人都在比谁的 benchmark 更高。
但 Mythos 第一次触碰到了一个天花板:模型强到公司自己不敢发布。
这就像汽车行业。早期比的是谁的车更快,200 公里、300 公里、400 公里时速。但到了某个点,问题不再是"能不能更快",而是"这么快的车,普通人能上路吗?需要什么样的道路、什么样的交规、什么样的驾照?"
Mythos 就是那辆 400 公里时速的车。它证明了 scaling law 在 10T 参数级别依然有效——模型越大,能力确实越强。但它也提出了一个此前被忽视的问题:当 AI 的能力超过了安全边界,发布策略本身就成了一项核心技术。
这对行业的影响是深远的:
第一,AI 安全从"口号"变成了"门槛"。以前喊"负责任的 AI"更像是公关话术。Mythos 之后,如果你的模型有同等级的攻击能力但没有 Glasswing 级别的分发管控,你可能连发布都发布不了——不是技术上不能,而是法律和社会压力不允许。
第二,"模型分级"将成为常态。就像药品分处方药和非处方药一样,AI 模型可能也会被分为"通用发布"和"受控发布"两个层级。Mythos 级别的模型只有经过认证的组织才能使用。
第三,防御者终于有了不对称优势。在网络安全领域,一直是"攻击者有不对称优势"——防御者要守住所有门,攻击者只需要找到一扇没锁的。但如果防御者有了 Mythos 这样的工具,能比攻击者更快地发现漏洞并修复,攻防天平可能第一次向防御侧倾斜。
模型能力的竞争,正在让位给模型治理的竞争。谁能在"最大能力"和"最小风险"之间画出最精准的线,谁就赢了下一个十年。
写在最后
回顾整件事,我做两个预测,给自己设个 deadline:
预测一:2026 年底之前,至少会出现一个国家级的"AI 模型分级管控"框架。Mythos 的先例已经证明,有些 AI 能力不适合无差别公开。欧盟的 AI Act 会率先响应,美国会跟进。不是"要不要管"的问题,而是"怎么管"的问题。
预测二:2027 年 Q2 之前,Anthropic 会正式发布 Mythos 的公开版本,但会有严格的使用限制。Glasswing 计划本质上是一次大规模的"安全压力测试"。当 Anthropic 确认防御侧的基础设施足够健壮时,他们会有选择地开放。这个窗口期大约在 9-12 个月。
Anthropic 在 Glasswing 的公告中留了一句话,我觉得值得你记住:
We eventually want to safely deploy Mythos-class models at scale when new safeguards are in place.
—— Anthropic, Project Glasswing 公告
关键词是 "when",不是 "if"。他们没说不发布,而是说"等条件成熟了再发布"。
这就是 Mythos 的故事:一个强大到创造者自己都需要先建好围栏的 AI 模型。它让我们第一次真切地感受到,AI 能力的增长速度,已经超过了人类社会消化这些能力的速度。
不是 AI 太快了,是我们的治理框架太慢了。
半年后回来,看看我说得对不对。
参考资料
- Exclusive: Anthropic 'Mythos' AI model representing 'step change' in power revealed in data leak - Fortune
- Project Glasswing: Securing critical software for the AI era - Anthropic
- Anthropic debuts preview of powerful new AI model Mythos in new cybersecurity initiative - TechCrunch
- Claude Code's source code appears to have leaked: here's what we know - VentureBeat
- Anthropic's Project Glasswing — restricting Claude Mythos to security researchers — sounds necessary to me - Simon Willison
- Anthropic Claude Mythos Preview - CrowdStrike
- Architecture of KAIROS, the Unreleased Always-on Background Agent - CodePointer
- Claude Mythos Preview - Anthropic Red Team
- Anthropic limits Mythos AI rollout over fears hackers could use model for cyberattacks - CNBC
- The Claude Code Source Leak: 512,000 Lines, a Missing .npmignore - Layer5