稀疏注意力:9B 参数击败 120B 的秘密,藏在"不看"里
2025 年 2 月 15 日,DeepSeek 团队在 arXiv 上传了一篇论文,标题有点拗口:Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention。
没有发布会,没有 Twitter 上的狂欢,甚至连 Hacker News 首页都没上。论文的核心想法听起来也不性感——"让模型在推理时少看一些 token"。
六个月后,这篇论文拿了 ACL 2025 最佳论文奖。
又过了半年,到了 2026 年 3 月,一件更离谱的事情发生了:阿里发布的 Qwen3.5-9B,一个只有 90 亿参数的模型,在 GPQA Diamond 等多项权威基准上打赢了 OpenAI 的 GPT-OSS-120B——后者的参数量是它的 13 倍。
9B 打赢 120B。这不是段子,是 benchmark 白纸黑字写着的。
这到底是怎么发生的?答案藏在一个反直觉的洞察里:模型变强的关键,不是学会"看更多",而是学会"不看"。
为什么"堆参数"的路走到头了?
要理解稀疏注意力为什么重要,你得先理解传统注意力机制有多"笨"。
Transformer 的核心是自注意力机制(Self-Attention)。简单说,模型在处理每一个词的时候,会"回头看"前面所有的词,计算自己跟每个词的关联度。
听起来很合理对吧?但问题出在"所有"两个字上。
如果你的输入是 1000 个 token,每个 token 要跟其他 999 个做一次计算,总共大约 100 万次。这还行。
但如果输入是 10000 个 token 呢?1 亿次。
100000 个 token?100 亿次。
这就是所谓的 O(L²) 复杂度——计算量随着序列长度的平方增长。你把输入长度翻一倍,计算量翻四倍。
打个比方:你要在一个图书馆里找一句话。全注意力的做法是——翻遍图书馆里的每一本书、每一页、每一行。不管这本书是关于量子物理还是意大利菜谱,你都老老实实看一遍。
效率低吗?极低。但过去几年,大家的解决方案是什么?
买更大的图书馆。
GPU 不够?加卡。内存不够?换 H100。训练太慢?申请更多算力预算。
这就是"大力出奇迹"(Scaling Law)的逻辑。它确实管用——GPT-4 比 GPT-3 强,GPT-5 比 GPT-4 强。但到了 2025 年,这条路开始碰壁。
有意思的是,最先意识到这个问题的,不是 OpenAI,而是预算有限的中国团队。
他们被迫回答一个问题:如果我买不起 10 万张 H100,有没有办法用更少的计算做到同样好?
答案是有的。但不是"算得更快",而是"算得更少"。
算力不是问题,浪费算力才是。
稀疏注意力到底在干什么?
回到图书馆的比方。
全注意力是翻遍所有书。稀疏注意力呢?先看目录,再翻重点章节。
具体怎么做?核心思路就三步:
第一步,粗筛。不逐个 token 比较,而是把 token 按"块"分组,先用一个轻量级的打分器(比如 DeepSeek 的 Lightning Indexer)快速给每个块打分,找出"大概率有用"的区域。
第二步,精选。在粗筛出来的块里,再精确选出最相关的 top-k 个 token。
第三步,补充局部上下文。用一个小的滑动窗口保留当前位置附近的 token,确保不丢失局部语境。
原来需要看 10 万个 token 的计算,现在只看 2048 个最相关的 + 附近几百个。计算量直接从 O(L²) 降到 O(L·k),其中 k 远小于 L。
这个发现几乎是反常识的。
想想看:你在一场会议上,如果同时听 20 个人说话,你大概率什么都记不住。但如果你只专注听 3 个最关键的发言者,你反而能抓住核心信息。
大模型也是一样。看得多不等于看得准。
从性能数据上看,效果非常惊人:
| 指标 | 全注意力 | NSA 稀疏注意力 | 提升 |
|---|---|---|---|
| 64K 上下文解码速度 | 1x | 11.6x | 提速 11.6 倍 |
| 训练前向传播(64K) | 1x | 9.0x | 提速 9 倍 |
| 训练反向传播(64K) | 1x | 6.0x | 提速 6 倍 |
64K 上下文长度下解码速度快了近 12 倍。这不是"微调式改善",这是代际级的效率跃迁。
最强的注意力,是知道什么不值得注意。
NSA vs MoBA:两条路,同一个终点?
稀疏注意力这条赛道上,有两个最耀眼的名字:DeepSeek 的 NSA(Native Sparse Attention)和月之暗面(Kimi)的 MoBA(Mixture of Block Attention)。
有趣的是,两篇论文几乎同时发表——2025 年 2 月中旬前后,梁文锋和杨植麟的团队"撞题"了。
这种撞题本身就说明问题:聪明人在同一时间想到了同一个方向,说明这个方向大概率是对的。
但两个方案的路线截然不同。
NSA:三路并行的"精英小队"
DeepSeek 的 NSA 把注意力拆成三条并行路径:
压缩注意力负责"鸟瞰全局",把 token 块压缩成粗粒度的摘要,快速扫描整体趋势。
选择注意力负责"精准狙击",通过 Lightning Indexer 挑出最关键的 token,做细粒度计算。
滑动窗口负责"近处盯梢",保留当前位置附近的 token,维持局部连贯性。
三路结果最终融合。用人话说:一个助手帮你看大纲,一个助手帮你查关键段落,一个助手盯着你正在读的那一页。三个人的效率远超一个人翻遍全书。
MoBA:注意力界的 MoE
Kimi 的思路完全不同。MoBA 把"混合专家"(MoE)的理念搬到了注意力机制上。
做法是:把所有 token 分成固定大小的"块"(block),每个 query token 像路由器一样,自动选择跟自己最相关的几个块来做注意力计算。其他块直接跳过。
打个比方:NSA 是三个各有专长的助手分头干活,MoBA 是一个聪明的调度员——你问什么问题,它直接把你路由到最相关的"知识区域"。
两个方案孰优孰劣?说实话,目前没有定论。NSA 在硬件对齐和训练效率上更极致,MoBA 在灵活性和长文本处理上更优雅。
但更重要的不是谁赢,而是一个事实:两条路都通向同一个结论——全注意力的时代正在结束。
技术竞争最精彩的不是谁赢,而是殊途同归。
9B 凭什么打赢 120B?
聊完原理,说点让人兴奋的。
2026 年 3 月,阿里发布了 Qwen3.5 Small 系列,其中 9B 参数的版本在多项基准上击败了 OpenAI 的 GPT-OSS-120B。
这里有一个插曲值得一提。GPT-OSS-120B 是 OpenAI 少见的开源尝试——120B 参数,规格不低。结果被一个参数量只有它 1/13 的模型赢了。
看看具体数据:
| 基准测试 | Qwen3.5-9B | GPT-OSS-120B | 结果 |
|---|---|---|---|
| MMLU-Pro | 82.5 | 80.8 | 9B 胜 |
| GPQA Diamond | 81.7 | 80.1 | 9B 胜 |
| MMMLU(多语言) | 81.2 | 78.2 | 9B 胜 |
| Video-MME | 84.5 | — | 超越 Gemini 2.5 Flash |
GPQA Diamond 是博士级别的科学推理基准。一个 9B 模型在这上面拿 81.7,超过了一个 120B 模型的 80.1。
这就像一个 60 公斤级的拳击手打赢了一个 100 公斤的对手。你第一反应是"不可能",但仔细想想,拳击场上这种事经常发生。
关键从来不是谁更重,而是谁的出拳更精准、谁的体能分配更聪明。
Qwen3.5-9B 的"精准"来自哪里?几个关键技术要素的叠加:
- 原生多模态:从训练第一天起就同时处理文本、图像和视频,不是后期拼接
- 高质量数据 + 大规模强化学习:数据质量 > 数据数量的逻辑被推到了极致
- 架构效率:在注意力和参数利用率上做了大量优化,每个参数都"物尽其用"
当然,公平地说,GPT-OSS-120B 在数学竞赛(HMMT)和代码生成(LiveCodeBench)上仍然领先。大模型并非一无是处。
但趋势已经很清楚了:参数数量不再是决定性因素。
这让我想起一个冷知识:人的大脑有约 860 亿个神经元,但在任意时刻,只有极少数在活跃放电。如果所有神经元同时全力运转,你不会变得更聪明——你会癫痫发作。
大模型也在学习同样的道理:不是每个参数都需要在每次推理时全力开火。
未来的 AI 竞争,不是比谁更大,而是比谁更聪明地"偷懒"。
这对你意味着什么?
如果你是 AI 开发者,稀疏注意力和小模型崛起这件事,会在三个层面影响你的日常。
模型选型的逻辑变了
以前选模型的思路是"能用最大的就用最大的,预算不够再降级"。
现在的思路应该是:先看任务需求,再选最高效的。对于知识密集型任务(问答、文档分析),9B 级别的开源模型已经够用,而且延迟更低、成本更低。只有复杂推理和高难度代码生成,才需要动用百亿以上参数的模型。
一个实际的例子:用 Qwen3.5-9B 做文档 QA,效果不输 GPT-5 系列,但推理成本可能只有后者的 1/50。
部署门槛断崖式下降
120B 模型需要多张 A100/H100 才能跑起来。9B 模型呢?单张消费级显卡就行。量化后甚至可以在 MacBook 上跑。
这意味着"本地部署大模型"从极客玩具变成了生产选项。对数据安全敏感的企业,终于不用在"模型能力"和"数据不出域"之间做痛苦取舍。
端侧 AI 的大门真的打开了
Qwen3.5 系列最小的模型只有 0.8B 参数,却是原生多模态的——能处理文本、图像和视频。0.8B 意味着什么?意味着它可以跑在你的手机上。
手机上跑多模态 AI,不是"demo 级别的玩具",而是"生产级别的能力"。这在一年前还不可想象。
开发者最大的杠杆,不是更贵的 API,而是更聪明的模型选择。
写在最后
从 2025 年 2 月的一篇论文,到 2026 年 3 月小模型全面逆袭,稀疏注意力用了一年时间从学术论文变成了产业现实。
这场效率革命的本质是什么?是大模型终于学会了一件人类早就知道的事:注意力是稀缺资源,不要浪费在不重要的事情上。
我做两个预测,给自己设个 deadline:
预测一:2026 年底之前,主流开源模型(DeepSeek、Qwen、Llama)将在 80% 以上的通用基准上追平或超越闭源模型。稀疏注意力 + MoE + 高质量合成数据,三驾马车会让"开源不如闭源"彻底变成历史。
预测二:2027 年上半年,至少 3 款旗舰手机会将 10B 级别的本地大模型作为系统级能力内置——不是"AI 助手"这种玩具,而是真正能理解上下文、处理多模态信息的"端侧智能"。
半年后回来看看,我说得对不对。
大模型的下半场,赢家不是最大的,是最快学会"偷懒"的。
参考资料
- Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention — DeepSeek-AI, arXiv 2025
- A Technical Tour of the DeepSeek Models from V3 to V3.2 — Sebastian Raschka
- MoBA:面向长文本大模型的混合块注意力机制 — 月之暗面
- Alibaba's small, open source Qwen3.5-9B beats OpenAI's gpt-oss-120B — VentureBeat
- SGLang Day 0 Support for DeepSeek-V3.2 with Sparse Attention — LMSYS Org
- The Coming Disruption: How Open-Source AI Will Challenge Closed-Model Giants — California Management Review
- 如何评价 Kimi 开源的稀疏注意力框架 MoBA? — 知乎