AI 一周观察（6.5–6.11）：前沿同时往三个方向裂开了

80.3% 对 58.6%。

这是这一周里，我看到的最刺眼的一组数字。

前者是 Anthropic 6 月 9 日发布的 Claude Fable 5，在 SWE-bench Pro（一套衡量"能不能真正搞定难的软件工程任务"的基准）上的得分。后者，是 OpenAI 当家通用模型 GPT-5.5 在同一套题上的成绩。

22 个百分点的差距。在跑分早就卷到小数点后一位、各家咬得死死的 2026 年，这种量级的拉开，已经很久没出现过了。

但如果你以为这一周的看点只是"Anthropic 又赢了一局"，那就把这周读小了。因为就在 Fable 5 发布的第二天，Google 扔出了一个完全不按套路出牌的东西——一个不再"一个字一个字往外蹦"的语言模型。同一周，OpenAI 在悄悄把一件比跑分更重要的事做扎实。

把这三件事摆在一起看，你会发现一个很微妙的信号：AI 前沿不再是一条赛道了。它正在同时往三个方向裂开。这篇就带你把这一周捋清楚——不是流水账，而是这三个方向各自意味着什么，以及你该把注押在哪。

这一周，到底发生了什么

先给你一张地图。这一周（6 月 5 日到 11 日）真正值得记住的，就三件事：

6 月 9 日，Anthropic 发布 Claude Fable 5——它把内部代号 "Mythos" 那一档的能力，第一次正式开放给所有人。在"更强"这条线上，直接把天花板顶高了一截。
6 月 10 日，Google 开源 DiffusionGemma——一个用"扩散"方式生成文本的 26B 开源模型，单卡 H100 上每秒能吐 1000+ token。在"更快、更便宜"这条线上，换了一套底层引擎。
同期，OpenAI 把 GPT-5.5 Instant 铺成 ChatGPT 默认模型，并向免费用户推开——它没在跑分上喊口号，而是把幻觉率砍掉一半。在"更可靠"这条线上，闷声做了件大事。

看出门道了吗？这三家，没有一家在做同一件事。

过去我们聊"谁是最强模型"，潜台词是大家在跑同一条 100 米——谁先撞线谁赢。但这一周告诉你：跑道分叉了。一个往"更聪明"冲，一个往"更快更省"拐，一个往"更靠谱"沉。

insider 视角

为什么会分叉？因为"能力"这个词，对不同的客户根本不是一回事。让 AI 写一周代码的工程团队，要的是"更强"；要在手机、边缘设备上本地跑的人，要的是"更快更省"；把 AI 接进医疗、法律、金融的企业，最怕的是"它一本正经地胡说"——要的是"更稳"。一个模型不可能同时把这三件事做到极致，于是巨头开始各取一头。

下面这张图，是我对这一周的总结。三条线，三个主角，三种野心。

这一周的 AI 前沿：一条赛道，裂成了三个方向

地图有了，我们一条一条走。先看最炸的那条——更强。

更强：Fable 5 把"天花板"捅穿了

先解释一个容易被绕晕的命名。

Anthropic 内部有一档代号叫 Mythos 的模型，能力极强，强到他们一度因为安全顾虑没敢直接对公众放开。Fable 5 干的事，用官方的话说，就是把 "Mythos 这一档" 的能力，调教到足够安全、第一次端到所有人面前。所以你可以把它理解成：之前锁在保险柜里的那个怪物，被牵出来遛了，但戴上了项圈。

这个项圈是真实存在的。Anthropic 给 Fable 5 配了一套保守的安全护栏——遇到某些敏感话题，它不会自己硬答，而是把请求转交给上一代的 Claude Opus 4.8 来回。代价是偶尔会误伤正常问题，但官方说这种"误触"平均在 5% 以下的会话里才发生。这是一种很务实的取舍：先把强模型安全地放出来，再慢慢收紧螺丝。

那它到底有多强？光说"最强"是没意义的，看数字。

基准测试	Claude Fable 5	Claude Opus 4.8	GPT-5.5
SWE-bench Pro（难级软件工程）	80.3%	—	58.6%
FrontierCode（生产级编码）	29.3%	13.4%	5.7%
核心分析基准（长程分析任务）	首破 90%	约 80%	—

盯着 FrontierCode 那一行看。这套题专门考"在真实生产标准下写代码"——不是写个能跑的玩具，而是要经得起 code review 的那种。Fable 5 拿 29.3%，上一代 Opus 4.8 是 13.4%，等于一代之内翻了一倍多。而 GPT-5.5 只有 5.7%。

数据说话

别被绝对数字吓到——29.3% 看起来"还不及格"。但 FrontierCode 这种题，故意出得极难，及格线本来就不是 60 分。真正的信号在相对差距：同一道难题，Fable 5 的通过率是 GPT-5.5 的五倍多。当一个任务难到大多数模型都做不出来时，"谁能多做出几道"才是真正的分水岭。

但跑分只是表象。Fable 5 真正让我在意的，是另一个能力：它能稳定地跑长任务，官方提到的极端案例是连续工作 12 小时不掉链子。

这意味着什么？打个比方。

过去的模型像一个聪明的实习生——你交代一件事，它做得不错，但你得每隔几分钟回来看一眼、纠个偏、再给下一步指令。它的"注意力半径"很短。

而能跑 12 小时复杂任务的模型，更像一个能独立承包一个模块的工程师——你早上把需求和图纸丢给它，傍晚回来验收。中间它自己拆任务、自己调工具、自己处理一路上冒出来的小岔子。

这俩之间的区别，不是"快了一点"，而是你的角色变了：从"盯着它干活的人",变成"给它派活、等它交付的人"。这才是 Fable 5 这种"更强"的真正含义——强到能改变你和它的协作方式。

当然，代价写在价签上：Fable 5 的定价是每百万 token 输入 10 美元、输出 50 美元，正好是 Opus 4.8 的两倍。强,从来不是免费的。

一句话收这一节：当模型强到能独立扛完一整天的活，你买的就不再是"一次问答",而是"一段工时"。

更快：DiffusionGemma 换了一台引擎

如果说 Fable 5 是在原来的路上把车开得更快，那 Google 的 DiffusionGemma，是直接换了一台引擎。

要讲清楚它的颠覆性，得先说一个你可能没意识到的事实：过去所有主流大模型，写字的方式都一样——一个字一个字往外蹦。

专业说法叫"自回归"。说人话就是：模型先写第一个词，再根据第一个词写第二个，再根据前两个写第三个……像一个人在打字，必须打完上一个字才能打下一个。哪怕它脑子转得再快，这个"排队吐字"的机制是绕不开的硬约束。你之所以看到 ChatGPT 的回答是一个词一个词冒出来的，根子就在这。

DiffusionGemma 把这套逻辑掀了。它借的是图像生成（比如 Midjourney 那类）的思路——扩散。

关键区别

自回归生成像打字：一个字一个字按顺序敲，前一个不出来，后一个动不了。
扩散生成像冲洗照片：先有一整张模糊的"草稿画布"，然后整体一遍遍地变清晰。一次性 256 个 token 并行精修，而不是排着队来。

下面这张图，是两种方式的对比。左边是老办法，右边是新引擎。

两种文本生成范式：逐字排队 vs 整体精修

结果有多夸张？官方数据：单张 H100 上每秒生成 1000+ token，连消费级的 RTX 5090 显卡都能跑到每秒 700+ token，整体比传统模型快约 4 倍。它是个 26B 的 MoE（混合专家）模型，底子来自 Gemma 4 家族，最关键的是——Apache 2.0 协议，完全开源，还第一个拿到了 vLLM 的原生支持（vLLM 已经是生产环境部署模型的事实标准）。

开源 + 能在游戏显卡上飞 + 主流部署框架直接支持。这三个条件凑齐，意味着什么？

意味着本地 AI 的经济账，可能要重算了。

过去你想在自己机器上跑个像样的模型，要么慢得让人抓狂，要么得堆昂贵的显卡。DiffusionGemma 把"快"和"便宜"第一次比较体面地凑到了一起。对那些数据不能出门（医疗、政企、金融）、或者想摆脱 API 账单的团队，这是实打实的诱惑。

反例警示

但别急着把扩散模型捧成"自回归杀手"。它有自己的软肋：扩散式生成在需要严密逻辑链、一步错步步错的长推理任务上，目前还未必稳得过顶级自回归模型。它的杀手锏是"快和省",不是"最聪明"。把它用在高吞吐、对延迟敏感的场景（批量改写、本地补全、海量分类）才是正解，拿它去硬刚 Fable 5 的复杂工程任务，就用错了地方。

所以这一节的洞察是：Fable 5 比的是"能做多难的题",DiffusionGemma 改的是"出题的成本"。一个抬高上限，一个拉低下限，根本不在一个维度上较劲。

更稳：被低估的可靠性与算力暗线

聊完两个"明星",说说这一周最容易被忽略、但我觉得对普通用户最重要的一条线——可靠性。

OpenAI 这一周没发什么惊天动地的新模型，而是把 GPT-5.5 Instant 正式铺成了 ChatGPT 的默认模型，并在 6 月 9 日开始向免费和 Go 用户推开个性化更新。听起来平平无奇,对吧？但有一个数字值得你停一下：

在医疗、法律、金融这类高风险问题上，GPT-5.5 Instant 的幻觉（一本正经地编造）比上一代少了 52.5%。

少一半。

我想说句可能不讨喜的话：对绝大多数真实用户来说，幻觉减半，比跑分涨 5 分有用得多。

你想想，普通人用 AI 出事，几乎从来不是因为"它不够聪明",而是因为"它把假的说得跟真的一样,而我信了"。一个把幻觉砍掉一半的默认模型，等于把几亿人日常踩到的那个最深的坑，填了一半。这种进步上不了头条，却实实在在地改变着 AI 能不能被信任地用在正经事上。

OpenAI 还顺手做了件聪明事：让用户能看到"这次回答到底用了哪些记忆和上下文",并且能删、能改。把"AI 凭什么这么说"这件黑箱事，往透明的方向推了一步。可靠,不只是少出错,还包括出错时你能查到为什么。

延伸思考

三条线里，"更强"和"更快"都看得见、摸得着、好截图。唯独"更可靠"是隐性的——你很难为"没发生的错误"鼓掌。但恰恰是这条最不性感的线，决定了 AI 能不能从"玩具"和"助手",走进医院、法庭和银行的核心流程。被低估的，往往才是真正的护城河。

说到护城河，这一周还有一条更深的暗线，藏在新闻的水面之下——算力的钱，正在悄悄换庄家。

背景是 Meta 和 AMD 那笔高达 1000 亿美元的芯片大单（年初敲定，影响在持续发酵）：Meta 要大批采购 AMD 的 MI 系列 GPU，给数据中心扩容,甚至附带了让 Meta 可能拿到 AMD 约 10% 股份的认股权证。这是什么信号？是连 Meta 这样的巨头，都在主动给自己的算力供应"上第二个保险",不愿意把命脉全押在英伟达一家身上。

这条线跟你有什么关系？关系大了。上面三个模型——无论更强、更快还是更稳——全都跑在这些芯片上。模型的精彩,是台上的戏；芯片的博弈,是台下谁出钱搭的台子。当搭台子的人开始分散下注，长期看，算力这件事会更便宜、更不被一家卡脖子。而算力变便宜,最终会变成你用 AI 的成本变低。

这一节收个尾：真正改变你日常的进步，往往不在发布会的高光里,而在幻觉率的小数点后,和数据中心的采购合同里。

三条战线，和你该押的注

把这一周的三件事拢到一起，结论其实很清爽。"最强模型"这个问题,正在失效。因为前沿已经不在一条线上,你得先问自己"我要的是哪一头"。

要把硬骨头啃下来：选"更强"。Fable 5 这类 Mythos 级模型，强到能独立扛完长任务,适合复杂工程、深度科研、多步分析。代价是贵。
要高吞吐、低成本、能本地跑：盯"更快"。DiffusionGemma 这类扩散模型把速度和成本重写了一遍,适合批量处理、边缘部署、数据不出门的场景。
要让普通人放心用：看"更稳"。GPT-5.5 Instant 把幻觉砍半,这种隐性进步,才是 AI 走进严肃场景的通行证。

我的看法：这一周是个标志性的拐点。过去几年我们习惯了用一个词——"谁最强"——去概括 AI 竞争,这个习惯该改了。当 Anthropic、Google、OpenAI 三家不约而同地朝三个方向使劲,说明前沿已经宽到没有任何一个模型能通吃。对你我这样的使用者和开发者来说,这其实是好消息：你不再需要一个"万能选手",而是可以像配工具箱一样,按任务挑模型。会挑的人,效率会甩开只认一个牌子的人。

两个预测，给自己设个 deadline：

2026 年底之前，"扩散语言模型"会从这周的"新奇玩意",变成至少一家主流厂商在生产环境主推的方案——因为"快 4 倍 + 便宜"的诱惑,任何要规模化的人都扛不住。
2027 年第一季度，"幻觉率"会取代部分跑分,成为企业选型时摆在台面上的硬指标——当 AI 真要进医院和银行,"它有多聪明"远不如"它多久骗你一次"重要。

半年后回来看看这两条，我说得对不对。

但有一件事我现在就敢下判断：当前沿裂成三条战线，真正的竞争力,不再是"你用的模型有多强",而是"你分不分得清,这个活该交给哪一头"。