TECH ARTICLES
LLM Sparse Attention 开源模型

稀疏注意力:9B 参数击败 120B 的秘密,藏在"不看"里

Jackie Zhan 2026-03-24
目录
为什么"堆参数"的路走到头了? 稀疏注意力到底在干什么? NSA vs MoBA:两条路,同一个终点? 9B 凭什么打赢 120B? 这对你意味着什么? 写在最后

2025 年 2 月 15 日,DeepSeek 团队在 arXiv 上传了一篇论文,标题有点拗口:Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention

没有发布会,没有 Twitter 上的狂欢,甚至连 Hacker News 首页都没上。论文的核心想法听起来也不性感——"让模型在推理时少看一些 token"。

六个月后,这篇论文拿了 ACL 2025 最佳论文奖。

又过了半年,到了 2026 年 3 月,一件更离谱的事情发生了:阿里发布的 Qwen3.5-9B,一个只有 90 亿参数的模型,在 GPQA Diamond 等多项权威基准上打赢了 OpenAI 的 GPT-OSS-120B——后者的参数量是它的 13 倍。

9B 打赢 120B。这不是段子,是 benchmark 白纸黑字写着的。

这到底是怎么发生的?答案藏在一个反直觉的洞察里:模型变强的关键,不是学会"看更多",而是学会"不看"。


为什么"堆参数"的路走到头了?

要理解稀疏注意力为什么重要,你得先理解传统注意力机制有多"笨"。

Transformer 的核心是自注意力机制(Self-Attention)。简单说,模型在处理每一个词的时候,会"回头看"前面所有的词,计算自己跟每个词的关联度。

听起来很合理对吧?但问题出在"所有"两个字上。

如果你的输入是 1000 个 token,每个 token 要跟其他 999 个做一次计算,总共大约 100 万次。这还行。

但如果输入是 10000 个 token 呢?1 亿次。

100000 个 token?100 亿次。

这就是所谓的 O(L²) 复杂度——计算量随着序列长度的平方增长。你把输入长度翻一倍,计算量翻四倍。

打个比方:你要在一个图书馆里找一句话。全注意力的做法是——翻遍图书馆里的每一本书、每一页、每一行。不管这本书是关于量子物理还是意大利菜谱,你都老老实实看一遍。

效率低吗?极低。但过去几年,大家的解决方案是什么?

买更大的图书馆。

GPU 不够?加卡。内存不够?换 H100。训练太慢?申请更多算力预算。

这就是"大力出奇迹"(Scaling Law)的逻辑。它确实管用——GPT-4 比 GPT-3 强,GPT-5 比 GPT-4 强。但到了 2025 年,这条路开始碰壁。

数据说话
DeepSeek-V3 的完整训练成本约 590 万美元,用的是 FP8 混合精度训练 + Multi-Head Latent Attention(MLA)节省 93.3% 的 KV Cache。同期,据估算 GPT-5 的训练成本超过 2 亿美元。成本差了 30 多倍,但 V3 的性能在多项基准上已经逼近 GPT-5。这说明什么?烧钱堆算力的边际收益正在急剧下降。

有意思的是,最先意识到这个问题的,不是 OpenAI,而是预算有限的中国团队。

他们被迫回答一个问题:如果我买不起 10 万张 H100,有没有办法用更少的计算做到同样好?

答案是有的。但不是"算得更快",而是"算得更少"。

算力不是问题,浪费算力才是。


稀疏注意力到底在干什么?

回到图书馆的比方。

全注意力是翻遍所有书。稀疏注意力呢?先看目录,再翻重点章节。

具体怎么做?核心思路就三步:

第一步,粗筛。不逐个 token 比较,而是把 token 按"块"分组,先用一个轻量级的打分器(比如 DeepSeek 的 Lightning Indexer)快速给每个块打分,找出"大概率有用"的区域。

第二步,精选。在粗筛出来的块里,再精确选出最相关的 top-k 个 token。

第三步,补充局部上下文。用一个小的滑动窗口保留当前位置附近的 token,确保不丢失局部语境。

原来需要看 10 万个 token 的计算,现在只看 2048 个最相关的 + 附近几百个。计算量直接从 O(L²) 降到 O(L·k),其中 k 远小于 L。

常见误解
很多人第一反应是:"少看 token 不会丢信息吗?"反直觉的是,答案是"不会,甚至可能更好"。研究发现,全注意力中大量的 token 交互实际上是噪音——模型在做无用功。去掉这些噪音后,信号反而更清晰。NSA 论文的实验显示,在 9 项主要基准中有 7 项,稀疏注意力的表现优于全注意力。

这个发现几乎是反常识的。

想想看:你在一场会议上,如果同时听 20 个人说话,你大概率什么都记不住。但如果你只专注听 3 个最关键的发言者,你反而能抓住核心信息。

大模型也是一样。看得多不等于看得准。

从性能数据上看,效果非常惊人:

指标全注意力NSA 稀疏注意力提升
64K 上下文解码速度1x11.6x提速 11.6 倍
训练前向传播(64K)1x9.0x提速 9 倍
训练反向传播(64K)1x6.0x提速 6 倍

64K 上下文长度下解码速度快了近 12 倍。这不是"微调式改善",这是代际级的效率跃迁。

最强的注意力,是知道什么不值得注意。


NSA vs MoBA:两条路,同一个终点?

稀疏注意力这条赛道上,有两个最耀眼的名字:DeepSeek 的 NSA(Native Sparse Attention)和月之暗面(Kimi)的 MoBA(Mixture of Block Attention)。

有趣的是,两篇论文几乎同时发表——2025 年 2 月中旬前后,梁文锋和杨植麟的团队"撞题"了。

这种撞题本身就说明问题:聪明人在同一时间想到了同一个方向,说明这个方向大概率是对的。

但两个方案的路线截然不同。

NSA:三路并行的"精英小队"

DeepSeek 的 NSA 把注意力拆成三条并行路径:

Query 压缩注意力 粗粒度全局模式 选择注意力 细粒度关键 token 滑动窗口 局部上下文 融合输出
NSA 三路并行架构:压缩捕全局、选择抓关键、滑动窗口保局部

压缩注意力负责"鸟瞰全局",把 token 块压缩成粗粒度的摘要,快速扫描整体趋势。

选择注意力负责"精准狙击",通过 Lightning Indexer 挑出最关键的 token,做细粒度计算。

滑动窗口负责"近处盯梢",保留当前位置附近的 token,维持局部连贯性。

三路结果最终融合。用人话说:一个助手帮你看大纲,一个助手帮你查关键段落,一个助手盯着你正在读的那一页。三个人的效率远超一个人翻遍全书。

MoBA:注意力界的 MoE

Kimi 的思路完全不同。MoBA 把"混合专家"(MoE)的理念搬到了注意力机制上。

做法是:把所有 token 分成固定大小的"块"(block),每个 query token 像路由器一样,自动选择跟自己最相关的几个块来做注意力计算。其他块直接跳过。

打个比方:NSA 是三个各有专长的助手分头干活,MoBA 是一个聪明的调度员——你问什么问题,它直接把你路由到最相关的"知识区域"。

insider 视角
MoBA 有一个特别优雅的设计:它可以在全注意力和稀疏注意力之间无缝切换。当路由器选择了所有块时,它就退化为全注意力;选择少量块时,就是稀疏模式。这意味着模型可以自己学习"什么时候需要看全局,什么时候只看局部",而不是人为硬编码。据 Kimi 团队披露,MoBA 处理 100 万 token 长文本的速度提升 6.5 倍,1000 万 token 提升 16 倍。

两个方案孰优孰劣?说实话,目前没有定论。NSA 在硬件对齐和训练效率上更极致,MoBA 在灵活性和长文本处理上更优雅。

但更重要的不是谁赢,而是一个事实:两条路都通向同一个结论——全注意力的时代正在结束。

技术竞争最精彩的不是谁赢,而是殊途同归。


9B 凭什么打赢 120B?

聊完原理,说点让人兴奋的。

2026 年 3 月,阿里发布了 Qwen3.5 Small 系列,其中 9B 参数的版本在多项基准上击败了 OpenAI 的 GPT-OSS-120B。

这里有一个插曲值得一提。GPT-OSS-120B 是 OpenAI 少见的开源尝试——120B 参数,规格不低。结果被一个参数量只有它 1/13 的模型赢了。

看看具体数据:

基准测试Qwen3.5-9BGPT-OSS-120B结果
MMLU-Pro82.580.89B 胜
GPQA Diamond81.780.19B 胜
MMMLU(多语言)81.278.29B 胜
Video-MME84.5超越 Gemini 2.5 Flash

GPQA Diamond 是博士级别的科学推理基准。一个 9B 模型在这上面拿 81.7,超过了一个 120B 模型的 80.1。

这就像一个 60 公斤级的拳击手打赢了一个 100 公斤的对手。你第一反应是"不可能",但仔细想想,拳击场上这种事经常发生。

关键从来不是谁更重,而是谁的出拳更精准、谁的体能分配更聪明。

Qwen3.5-9B 的"精准"来自哪里?几个关键技术要素的叠加:

当然,公平地说,GPT-OSS-120B 在数学竞赛(HMMT)和代码生成(LiveCodeBench)上仍然领先。大模型并非一无是处。

但趋势已经很清楚了:参数数量不再是决定性因素。

这让我想起一个冷知识:人的大脑有约 860 亿个神经元,但在任意时刻,只有极少数在活跃放电。如果所有神经元同时全力运转,你不会变得更聪明——你会癫痫发作。

大模型也在学习同样的道理:不是每个参数都需要在每次推理时全力开火。

未来的 AI 竞争,不是比谁更大,而是比谁更聪明地"偷懒"。


这对你意味着什么?

如果你是 AI 开发者,稀疏注意力和小模型崛起这件事,会在三个层面影响你的日常。

模型选型的逻辑变了

以前选模型的思路是"能用最大的就用最大的,预算不够再降级"。

现在的思路应该是:先看任务需求,再选最高效的。对于知识密集型任务(问答、文档分析),9B 级别的开源模型已经够用,而且延迟更低、成本更低。只有复杂推理和高难度代码生成,才需要动用百亿以上参数的模型。

一个实际的例子:用 Qwen3.5-9B 做文档 QA,效果不输 GPT-5 系列,但推理成本可能只有后者的 1/50。

部署门槛断崖式下降

120B 模型需要多张 A100/H100 才能跑起来。9B 模型呢?单张消费级显卡就行。量化后甚至可以在 MacBook 上跑。

这意味着"本地部署大模型"从极客玩具变成了生产选项。对数据安全敏感的企业,终于不用在"模型能力"和"数据不出域"之间做痛苦取舍。

端侧 AI 的大门真的打开了

Qwen3.5 系列最小的模型只有 0.8B 参数,却是原生多模态的——能处理文本、图像和视频。0.8B 意味着什么?意味着它可以跑在你的手机上。

手机上跑多模态 AI,不是"demo 级别的玩具",而是"生产级别的能力"。这在一年前还不可想象。

延伸思考
当 9B 模型的知识能力追平 120B 时,闭源 API 的定价锚点会发生什么变化?如果开源模型持续以这个速度追赶,到 2026 年底,"为什么我还要为每个 token 付费?"将成为越来越多开发者的真实问题。这不是技术问题,是商业模式问题。

开发者最大的杠杆,不是更贵的 API,而是更聪明的模型选择。


写在最后

从 2025 年 2 月的一篇论文,到 2026 年 3 月小模型全面逆袭,稀疏注意力用了一年时间从学术论文变成了产业现实。

这场效率革命的本质是什么?是大模型终于学会了一件人类早就知道的事:注意力是稀缺资源,不要浪费在不重要的事情上。

我做两个预测,给自己设个 deadline:

预测一:2026 年底之前,主流开源模型(DeepSeek、Qwen、Llama)将在 80% 以上的通用基准上追平或超越闭源模型。稀疏注意力 + MoE + 高质量合成数据,三驾马车会让"开源不如闭源"彻底变成历史。

预测二:2027 年上半年,至少 3 款旗舰手机会将 10B 级别的本地大模型作为系统级能力内置——不是"AI 助手"这种玩具,而是真正能理解上下文、处理多模态信息的"端侧智能"。

半年后回来看看,我说得对不对。

大模型的下半场,赢家不是最大的,是最快学会"偷懒"的。