稀疏注意力：9B 参数击败 120B 的秘密，藏在"不看"里

2025 年 2 月 15 日，DeepSeek 团队在 arXiv 上传了一篇论文，标题有点拗口：Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention。

没有发布会，没有 Twitter 上的狂欢，甚至连 Hacker News 首页都没上。论文的核心想法听起来也不性感——"让模型在推理时少看一些 token"。

六个月后，这篇论文拿了 ACL 2025 最佳论文奖。

又过了半年，到了 2026 年 3 月，一件更离谱的事情发生了：阿里发布的 Qwen3.5-9B，一个只有 90 亿参数的模型，在 GPQA Diamond 等多项权威基准上打赢了 OpenAI 的 GPT-OSS-120B——后者的参数量是它的 13 倍。

9B 打赢 120B。这不是段子，是 benchmark 白纸黑字写着的。

这到底是怎么发生的？答案藏在一个反直觉的洞察里：模型变强的关键，不是学会"看更多"，而是学会"不看"。

为什么"堆参数"的路走到头了？

要理解稀疏注意力为什么重要，你得先理解传统注意力机制有多"笨"。

Transformer 的核心是自注意力机制（Self-Attention）。简单说，模型在处理每一个词的时候，会"回头看"前面所有的词，计算自己跟每个词的关联度。

听起来很合理对吧？但问题出在"所有"两个字上。

如果你的输入是 1000 个 token，每个 token 要跟其他 999 个做一次计算，总共大约 100 万次。这还行。

但如果输入是 10000 个 token 呢？1 亿次。

100000 个 token？100 亿次。

这就是所谓的 O(L²) 复杂度——计算量随着序列长度的平方增长。你把输入长度翻一倍，计算量翻四倍。

打个比方：你要在一个图书馆里找一句话。全注意力的做法是——翻遍图书馆里的每一本书、每一页、每一行。不管这本书是关于量子物理还是意大利菜谱，你都老老实实看一遍。

效率低吗？极低。但过去几年，大家的解决方案是什么？

买更大的图书馆。

GPU 不够？加卡。内存不够？换 H100。训练太慢？申请更多算力预算。

这就是"大力出奇迹"（Scaling Law）的逻辑。它确实管用——GPT-4 比 GPT-3 强，GPT-5 比 GPT-4 强。但到了 2025 年，这条路开始碰壁。

数据说话

DeepSeek-V3 的完整训练成本约 590 万美元，用的是 FP8 混合精度训练 + Multi-Head Latent Attention（MLA）节省 93.3% 的 KV Cache。同期，据估算 GPT-5 的训练成本超过 2 亿美元。成本差了 30 多倍，但 V3 的性能在多项基准上已经逼近 GPT-5。这说明什么？烧钱堆算力的边际收益正在急剧下降。

有意思的是，最先意识到这个问题的，不是 OpenAI，而是预算有限的中国团队。

他们被迫回答一个问题：如果我买不起 10 万张 H100，有没有办法用更少的计算做到同样好？

答案是有的。但不是"算得更快"，而是"算得更少"。

算力不是问题，浪费算力才是。

稀疏注意力到底在干什么？

回到图书馆的比方。

全注意力是翻遍所有书。稀疏注意力呢？先看目录，再翻重点章节。

具体怎么做？核心思路就三步：

第一步，粗筛。不逐个 token 比较，而是把 token 按"块"分组，先用一个轻量级的打分器（比如 DeepSeek 的 Lightning Indexer）快速给每个块打分，找出"大概率有用"的区域。

第二步，精选。在粗筛出来的块里，再精确选出最相关的 top-k 个 token。

第三步，补充局部上下文。用一个小的滑动窗口保留当前位置附近的 token，确保不丢失局部语境。

原来需要看 10 万个 token 的计算，现在只看 2048 个最相关的 + 附近几百个。计算量直接从 O(L²) 降到 O(L·k)，其中 k 远小于 L。

常见误解

很多人第一反应是："少看 token 不会丢信息吗？"反直觉的是，答案是"不会，甚至可能更好"。研究发现，全注意力中大量的 token 交互实际上是噪音——模型在做无用功。去掉这些噪音后，信号反而更清晰。NSA 论文的实验显示，在 9 项主要基准中有 7 项，稀疏注意力的表现优于全注意力。

这个发现几乎是反常识的。

想想看：你在一场会议上，如果同时听 20 个人说话，你大概率什么都记不住。但如果你只专注听 3 个最关键的发言者，你反而能抓住核心信息。

大模型也是一样。看得多不等于看得准。

从性能数据上看，效果非常惊人：

指标	全注意力	NSA 稀疏注意力	提升
64K 上下文解码速度	1x	11.6x	提速 11.6 倍
训练前向传播（64K）	1x	9.0x	提速 9 倍
训练反向传播（64K）	1x	6.0x	提速 6 倍

64K 上下文长度下解码速度快了近 12 倍。这不是"微调式改善"，这是代际级的效率跃迁。

最强的注意力，是知道什么不值得注意。

NSA vs MoBA：两条路，同一个终点？

稀疏注意力这条赛道上，有两个最耀眼的名字：DeepSeek 的 NSA（Native Sparse Attention）和月之暗面（Kimi）的 MoBA（Mixture of Block Attention）。

有趣的是，两篇论文几乎同时发表——2025 年 2 月中旬前后，梁文锋和杨植麟的团队"撞题"了。

这种撞题本身就说明问题：聪明人在同一时间想到了同一个方向，说明这个方向大概率是对的。

但两个方案的路线截然不同。

NSA：三路并行的"精英小队"

DeepSeek 的 NSA 把注意力拆成三条并行路径：

NSA 三路并行架构：压缩捕全局、选择抓关键、滑动窗口保局部

压缩注意力负责"鸟瞰全局"，把 token 块压缩成粗粒度的摘要，快速扫描整体趋势。

选择注意力负责"精准狙击"，通过 Lightning Indexer 挑出最关键的 token，做细粒度计算。

滑动窗口负责"近处盯梢"，保留当前位置附近的 token，维持局部连贯性。

三路结果最终融合。用人话说：一个助手帮你看大纲，一个助手帮你查关键段落，一个助手盯着你正在读的那一页。三个人的效率远超一个人翻遍全书。

MoBA：注意力界的 MoE

Kimi 的思路完全不同。MoBA 把"混合专家"（MoE）的理念搬到了注意力机制上。

做法是：把所有 token 分成固定大小的"块"（block），每个 query token 像路由器一样，自动选择跟自己最相关的几个块来做注意力计算。其他块直接跳过。

打个比方：NSA 是三个各有专长的助手分头干活，MoBA 是一个聪明的调度员——你问什么问题，它直接把你路由到最相关的"知识区域"。

insider 视角

MoBA 有一个特别优雅的设计：它可以在全注意力和稀疏注意力之间无缝切换。当路由器选择了所有块时，它就退化为全注意力；选择少量块时，就是稀疏模式。这意味着模型可以自己学习"什么时候需要看全局，什么时候只看局部"，而不是人为硬编码。据 Kimi 团队披露，MoBA 处理 100 万 token 长文本的速度提升 6.5 倍，1000 万 token 提升 16 倍。

两个方案孰优孰劣？说实话，目前没有定论。NSA 在硬件对齐和训练效率上更极致，MoBA 在灵活性和长文本处理上更优雅。

但更重要的不是谁赢，而是一个事实：两条路都通向同一个结论——全注意力的时代正在结束。

技术竞争最精彩的不是谁赢，而是殊途同归。

9B 凭什么打赢 120B？

聊完原理，说点让人兴奋的。

2026 年 3 月，阿里发布了 Qwen3.5 Small 系列，其中 9B 参数的版本在多项基准上击败了 OpenAI 的 GPT-OSS-120B。

这里有一个插曲值得一提。GPT-OSS-120B 是 OpenAI 少见的开源尝试——120B 参数，规格不低。结果被一个参数量只有它 1/13 的模型赢了。

看看具体数据：

基准测试	Qwen3.5-9B	GPT-OSS-120B	结果
MMLU-Pro	82.5	80.8	9B 胜
GPQA Diamond	81.7	80.1	9B 胜
MMMLU（多语言）	81.2	78.2	9B 胜
Video-MME	84.5	—	超越 Gemini 2.5 Flash

GPQA Diamond 是博士级别的科学推理基准。一个 9B 模型在这上面拿 81.7，超过了一个 120B 模型的 80.1。

这就像一个 60 公斤级的拳击手打赢了一个 100 公斤的对手。你第一反应是"不可能"，但仔细想想，拳击场上这种事经常发生。

关键从来不是谁更重，而是谁的出拳更精准、谁的体能分配更聪明。

Qwen3.5-9B 的"精准"来自哪里？几个关键技术要素的叠加：

原生多模态：从训练第一天起就同时处理文本、图像和视频，不是后期拼接
高质量数据 + 大规模强化学习：数据质量 > 数据数量的逻辑被推到了极致
架构效率：在注意力和参数利用率上做了大量优化，每个参数都"物尽其用"

当然，公平地说，GPT-OSS-120B 在数学竞赛（HMMT）和代码生成（LiveCodeBench）上仍然领先。大模型并非一无是处。

但趋势已经很清楚了：参数数量不再是决定性因素。

这让我想起一个冷知识：人的大脑有约 860 亿个神经元，但在任意时刻，只有极少数在活跃放电。如果所有神经元同时全力运转，你不会变得更聪明——你会癫痫发作。

大模型也在学习同样的道理：不是每个参数都需要在每次推理时全力开火。

未来的 AI 竞争，不是比谁更大，而是比谁更聪明地"偷懒"。

这对你意味着什么？

如果你是 AI 开发者，稀疏注意力和小模型崛起这件事，会在三个层面影响你的日常。

模型选型的逻辑变了

以前选模型的思路是"能用最大的就用最大的，预算不够再降级"。

现在的思路应该是：先看任务需求，再选最高效的。对于知识密集型任务（问答、文档分析），9B 级别的开源模型已经够用，而且延迟更低、成本更低。只有复杂推理和高难度代码生成，才需要动用百亿以上参数的模型。

一个实际的例子：用 Qwen3.5-9B 做文档 QA，效果不输 GPT-5 系列，但推理成本可能只有后者的 1/50。

部署门槛断崖式下降

120B 模型需要多张 A100/H100 才能跑起来。9B 模型呢？单张消费级显卡就行。量化后甚至可以在 MacBook 上跑。

这意味着"本地部署大模型"从极客玩具变成了生产选项。对数据安全敏感的企业，终于不用在"模型能力"和"数据不出域"之间做痛苦取舍。

端侧 AI 的大门真的打开了

Qwen3.5 系列最小的模型只有 0.8B 参数，却是原生多模态的——能处理文本、图像和视频。0.8B 意味着什么？意味着它可以跑在你的手机上。

手机上跑多模态 AI，不是"demo 级别的玩具"，而是"生产级别的能力"。这在一年前还不可想象。

延伸思考

当 9B 模型的知识能力追平 120B 时，闭源 API 的定价锚点会发生什么变化？如果开源模型持续以这个速度追赶，到 2026 年底，"为什么我还要为每个 token 付费？"将成为越来越多开发者的真实问题。这不是技术问题，是商业模式问题。

开发者最大的杠杆，不是更贵的 API，而是更聪明的模型选择。

写在最后

从 2025 年 2 月的一篇论文，到 2026 年 3 月小模型全面逆袭，稀疏注意力用了一年时间从学术论文变成了产业现实。

这场效率革命的本质是什么？是大模型终于学会了一件人类早就知道的事：注意力是稀缺资源，不要浪费在不重要的事情上。

我做两个预测，给自己设个 deadline：

预测一：2026 年底之前，主流开源模型（DeepSeek、Qwen、Llama）将在 80% 以上的通用基准上追平或超越闭源模型。稀疏注意力 + MoE + 高质量合成数据，三驾马车会让"开源不如闭源"彻底变成历史。

预测二：2027 年上半年，至少 3 款旗舰手机会将 10B 级别的本地大模型作为系统级能力内置——不是"AI 助手"这种玩具，而是真正能理解上下文、处理多模态信息的"端侧智能"。

半年后回来看看，我说得对不对。

大模型的下半场，赢家不是最大的，是最快学会"偷懒"的。