AI 一周观察(6.5–6.11):前沿同时往三个方向裂开了
80.3% 对 58.6%。
这是这一周里,我看到的最刺眼的一组数字。
前者是 Anthropic 6 月 9 日发布的 Claude Fable 5,在 SWE-bench Pro(一套衡量"能不能真正搞定难的软件工程任务"的基准)上的得分。后者,是 OpenAI 当家通用模型 GPT-5.5 在同一套题上的成绩。
22 个百分点的差距。在跑分早就卷到小数点后一位、各家咬得死死的 2026 年,这种量级的拉开,已经很久没出现过了。
但如果你以为这一周的看点只是"Anthropic 又赢了一局",那就把这周读小了。因为就在 Fable 5 发布的第二天,Google 扔出了一个完全不按套路出牌的东西——一个不再"一个字一个字往外蹦"的语言模型。同一周,OpenAI 在悄悄把一件比跑分更重要的事做扎实。
把这三件事摆在一起看,你会发现一个很微妙的信号:AI 前沿不再是一条赛道了。它正在同时往三个方向裂开。这篇就带你把这一周捋清楚——不是流水账,而是这三个方向各自意味着什么,以及你该把注押在哪。
这一周,到底发生了什么
先给你一张地图。这一周(6 月 5 日到 11 日)真正值得记住的,就三件事:
- 6 月 9 日,Anthropic 发布 Claude Fable 5——它把内部代号 "Mythos" 那一档的能力,第一次正式开放给所有人。在"更强"这条线上,直接把天花板顶高了一截。
- 6 月 10 日,Google 开源 DiffusionGemma——一个用"扩散"方式生成文本的 26B 开源模型,单卡 H100 上每秒能吐 1000+ token。在"更快、更便宜"这条线上,换了一套底层引擎。
- 同期,OpenAI 把 GPT-5.5 Instant 铺成 ChatGPT 默认模型,并向免费用户推开——它没在跑分上喊口号,而是把幻觉率砍掉一半。在"更可靠"这条线上,闷声做了件大事。
看出门道了吗?这三家,没有一家在做同一件事。
过去我们聊"谁是最强模型",潜台词是大家在跑同一条 100 米——谁先撞线谁赢。但这一周告诉你:跑道分叉了。一个往"更聪明"冲,一个往"更快更省"拐,一个往"更靠谱"沉。
下面这张图,是我对这一周的总结。三条线,三个主角,三种野心。
地图有了,我们一条一条走。先看最炸的那条——更强。
更强:Fable 5 把"天花板"捅穿了
先解释一个容易被绕晕的命名。
Anthropic 内部有一档代号叫 Mythos 的模型,能力极强,强到他们一度因为安全顾虑没敢直接对公众放开。Fable 5 干的事,用官方的话说,就是把 "Mythos 这一档" 的能力,调教到足够安全、第一次端到所有人面前。所以你可以把它理解成:之前锁在保险柜里的那个怪物,被牵出来遛了,但戴上了项圈。
这个项圈是真实存在的。Anthropic 给 Fable 5 配了一套保守的安全护栏——遇到某些敏感话题,它不会自己硬答,而是把请求转交给上一代的 Claude Opus 4.8 来回。代价是偶尔会误伤正常问题,但官方说这种"误触"平均在 5% 以下的会话里才发生。这是一种很务实的取舍:先把强模型安全地放出来,再慢慢收紧螺丝。
那它到底有多强?光说"最强"是没意义的,看数字。
| 基准测试 | Claude Fable 5 | Claude Opus 4.8 | GPT-5.5 |
|---|---|---|---|
| SWE-bench Pro(难级软件工程) | 80.3% | — | 58.6% |
| FrontierCode(生产级编码) | 29.3% | 13.4% | 5.7% |
| 核心分析基准(长程分析任务) | 首破 90% | 约 80% | — |
盯着 FrontierCode 那一行看。这套题专门考"在真实生产标准下写代码"——不是写个能跑的玩具,而是要经得起 code review 的那种。Fable 5 拿 29.3%,上一代 Opus 4.8 是 13.4%,等于一代之内翻了一倍多。而 GPT-5.5 只有 5.7%。
但跑分只是表象。Fable 5 真正让我在意的,是另一个能力:它能稳定地跑长任务,官方提到的极端案例是连续工作 12 小时不掉链子。
这意味着什么?打个比方。
过去的模型像一个聪明的实习生——你交代一件事,它做得不错,但你得每隔几分钟回来看一眼、纠个偏、再给下一步指令。它的"注意力半径"很短。
而能跑 12 小时复杂任务的模型,更像一个能独立承包一个模块的工程师——你早上把需求和图纸丢给它,傍晚回来验收。中间它自己拆任务、自己调工具、自己处理一路上冒出来的小岔子。
这俩之间的区别,不是"快了一点",而是你的角色变了:从"盯着它干活的人",变成"给它派活、等它交付的人"。这才是 Fable 5 这种"更强"的真正含义——强到能改变你和它的协作方式。
当然,代价写在价签上:Fable 5 的定价是每百万 token 输入 10 美元、输出 50 美元,正好是 Opus 4.8 的两倍。强,从来不是免费的。
一句话收这一节:当模型强到能独立扛完一整天的活,你买的就不再是"一次问答",而是"一段工时"。
更快:DiffusionGemma 换了一台引擎
如果说 Fable 5 是在原来的路上把车开得更快,那 Google 的 DiffusionGemma,是直接换了一台引擎。
要讲清楚它的颠覆性,得先说一个你可能没意识到的事实:过去所有主流大模型,写字的方式都一样——一个字一个字往外蹦。
专业说法叫"自回归"。说人话就是:模型先写第一个词,再根据第一个词写第二个,再根据前两个写第三个……像一个人在打字,必须打完上一个字才能打下一个。哪怕它脑子转得再快,这个"排队吐字"的机制是绕不开的硬约束。你之所以看到 ChatGPT 的回答是一个词一个词冒出来的,根子就在这。
DiffusionGemma 把这套逻辑掀了。它借的是图像生成(比如 Midjourney 那类)的思路——扩散。
扩散生成像冲洗照片:先有一整张模糊的"草稿画布",然后整体一遍遍地变清晰。一次性 256 个 token 并行精修,而不是排着队来。
下面这张图,是两种方式的对比。左边是老办法,右边是新引擎。
结果有多夸张?官方数据:单张 H100 上每秒生成 1000+ token,连消费级的 RTX 5090 显卡都能跑到每秒 700+ token,整体比传统模型快约 4 倍。它是个 26B 的 MoE(混合专家)模型,底子来自 Gemma 4 家族,最关键的是——Apache 2.0 协议,完全开源,还第一个拿到了 vLLM 的原生支持(vLLM 已经是生产环境部署模型的事实标准)。
开源 + 能在游戏显卡上飞 + 主流部署框架直接支持。这三个条件凑齐,意味着什么?
意味着本地 AI 的经济账,可能要重算了。
过去你想在自己机器上跑个像样的模型,要么慢得让人抓狂,要么得堆昂贵的显卡。DiffusionGemma 把"快"和"便宜"第一次比较体面地凑到了一起。对那些数据不能出门(医疗、政企、金融)、或者想摆脱 API 账单的团队,这是实打实的诱惑。
所以这一节的洞察是:Fable 5 比的是"能做多难的题",DiffusionGemma 改的是"出题的成本"。一个抬高上限,一个拉低下限,根本不在一个维度上较劲。
更稳:被低估的可靠性与算力暗线
聊完两个"明星",说说这一周最容易被忽略、但我觉得对普通用户最重要的一条线——可靠性。
OpenAI 这一周没发什么惊天动地的新模型,而是把 GPT-5.5 Instant 正式铺成了 ChatGPT 的默认模型,并在 6 月 9 日开始向免费和 Go 用户推开个性化更新。听起来平平无奇,对吧?但有一个数字值得你停一下:
在医疗、法律、金融这类高风险问题上,GPT-5.5 Instant 的幻觉(一本正经地编造)比上一代少了 52.5%。
少一半。
我想说句可能不讨喜的话:对绝大多数真实用户来说,幻觉减半,比跑分涨 5 分有用得多。
你想想,普通人用 AI 出事,几乎从来不是因为"它不够聪明",而是因为"它把假的说得跟真的一样,而我信了"。一个把幻觉砍掉一半的默认模型,等于把几亿人日常踩到的那个最深的坑,填了一半。这种进步上不了头条,却实实在在地改变着 AI 能不能被信任地用在正经事上。
OpenAI 还顺手做了件聪明事:让用户能看到"这次回答到底用了哪些记忆和上下文",并且能删、能改。把"AI 凭什么这么说"这件黑箱事,往透明的方向推了一步。可靠,不只是少出错,还包括出错时你能查到为什么。
说到护城河,这一周还有一条更深的暗线,藏在新闻的水面之下——算力的钱,正在悄悄换庄家。
背景是 Meta 和 AMD 那笔高达 1000 亿美元的芯片大单(年初敲定,影响在持续发酵):Meta 要大批采购 AMD 的 MI 系列 GPU,给数据中心扩容,甚至附带了让 Meta 可能拿到 AMD 约 10% 股份的认股权证。这是什么信号?是连 Meta 这样的巨头,都在主动给自己的算力供应"上第二个保险",不愿意把命脉全押在英伟达一家身上。
这条线跟你有什么关系?关系大了。上面三个模型——无论更强、更快还是更稳——全都跑在这些芯片上。模型的精彩,是台上的戏;芯片的博弈,是台下谁出钱搭的台子。当搭台子的人开始分散下注,长期看,算力这件事会更便宜、更不被一家卡脖子。而算力变便宜,最终会变成你用 AI 的成本变低。
这一节收个尾:真正改变你日常的进步,往往不在发布会的高光里,而在幻觉率的小数点后,和数据中心的采购合同里。
三条战线,和你该押的注
把这一周的三件事拢到一起,结论其实很清爽。"最强模型"这个问题,正在失效。因为前沿已经不在一条线上,你得先问自己"我要的是哪一头"。
- 要把硬骨头啃下来:选"更强"。Fable 5 这类 Mythos 级模型,强到能独立扛完长任务,适合复杂工程、深度科研、多步分析。代价是贵。
- 要高吞吐、低成本、能本地跑:盯"更快"。DiffusionGemma 这类扩散模型把速度和成本重写了一遍,适合批量处理、边缘部署、数据不出门的场景。
- 要让普通人放心用:看"更稳"。GPT-5.5 Instant 把幻觉砍半,这种隐性进步,才是 AI 走进严肃场景的通行证。
我的看法:这一周是个标志性的拐点。过去几年我们习惯了用一个词——"谁最强"——去概括 AI 竞争,这个习惯该改了。当 Anthropic、Google、OpenAI 三家不约而同地朝三个方向使劲,说明前沿已经宽到没有任何一个模型能通吃。对你我这样的使用者和开发者来说,这其实是好消息:你不再需要一个"万能选手",而是可以像配工具箱一样,按任务挑模型。会挑的人,效率会甩开只认一个牌子的人。
两个预测,给自己设个 deadline:
- 2026 年底之前,"扩散语言模型"会从这周的"新奇玩意",变成至少一家主流厂商在生产环境主推的方案——因为"快 4 倍 + 便宜"的诱惑,任何要规模化的人都扛不住。
- 2027 年第一季度,"幻觉率"会取代部分跑分,成为企业选型时摆在台面上的硬指标——当 AI 真要进医院和银行,"它有多聪明"远不如"它多久骗你一次"重要。
半年后回来看看这两条,我说得对不对。
但有一件事我现在就敢下判断:当前沿裂成三条战线,真正的竞争力,不再是"你用的模型有多强",而是"你分不分得清,这个活该交给哪一头"。
参考资料
- Claude Fable 5 and Claude Mythos 5 — Anthropic 官方
- Anthropic brings Mythos to the masses with Claude Fable 5 — VentureBeat
- Anthropic releases Claude Fable 5 and Mythos 5 with major gains in coding and science — The Decoder
- DiffusionGemma: 4x faster text generation — Google Blog
- Google AI Releases DiffusionGemma, a 26B MoE Open Model — MarkTechPost
- Google open-sources speedy DiffusionGemma text diffusion model — SiliconANGLE
- GPT-5.5 Instant: smarter, clearer, and more personalized — OpenAI
- OpenAI releases GPT-5.5 Instant, a new default model for ChatGPT — TechCrunch
- Meta strikes up to $100B AMD chip deal — TechCrunch
- AI Updates Today (June 2026) — LLM Stats