他把残差旋转了90度！Kimi注意力残差引爆AI圈，马斯克卡帕西齐点赞

一个看似不可能动刀的千年基座，被Kimi用“旋转90度”的神来之笔彻底重构

这几天AI圈最火的话题，非Kimi的注意力残差莫属。

一篇技术论文，在X上狂揽近500万浏览量，连马斯克、卡帕西这样的顶级大佬都忍不住驻足围观。国内微信搜索指数突然激增。

与此同时，Kimi的估值在不到3个月内翻了近4倍，飙升至180亿美元。听说新一轮10亿美元的融资也正在路上。

画面中，Kimi创始人在GDC大会上分享着这项引爆全球的技术创新。弹幕里飘过无数个问号：注意力残差到底是个啥？什么叫把残差旋转90度？为什么卡帕西说“重新认识Attention is all you need”？

问题有点多，但别担心。今天，我带你把Kimi这个底层架构的创新彻底打通关。

拆解那些神级大佬的评论，看看他们是怎么敢在这个千年不变的大模型基座上动刀的。看完这篇文章，你一定能在技术之美中感受到那种拍案叫绝的震撼。

老规矩，清空大脑，跟我一起进入这场探索之旅。

01 从两个旋钮说起

为了捋清这一切，我们得从梯度这个概念说起。

想象你有两个旋钮——a0和a1。假如a0转一圈，a1会转0.5圈。那么这里的0.5就是梯度。说得更直白点，在只有一个变量的情况下，梯度和导数是一回事。

深度学习的目标也超级简单：假设蓝色旋钮代表模型参数，黑色旋钮代表损失——也就是预测数据与真实数据的误差。我们要做的，就是找到每个蓝色旋钮应该怎么转，才能让最终的损失变小那么一点点。

这个过程，就是反向传播。

但问题来了。

梯度会随着神经网络的层数加深，以连乘的形式不断累积。比如0.5这个梯度，连乘4次就变成了0.0625。这时，第一个旋钮转动对最后一个旋钮的影响，几乎可以忽略不计。

这就是梯度消失。

反过来，如果梯度大于1，情况就走向另一个极端。比如梯度2连乘4次，直接扩大了16倍。这时转动第一个旋钮，最后一个旋钮就直接起飞了。

这就是梯度爆炸。

梯度消失和梯度爆炸，是影响神经网络训练稳定性的两大头疼问题。它们会让参数调整陷入不可控的恶性循环。

那么，如何解决这个问题？

02 一个“无脑”但绝妙的操作

办法其实非常简单：对于任意函数，都不管三七二十一，先把原来的输入本身加进来。

这样做带来的直观效果是：无论你的输出旋钮怎么转，都得先跟着我输入旋钮转的那一圈走。剩下的，再说。

这一招极大缓解了梯度消失的问题。

改变的地方简单到令人发指——就是加了个数而已。输出和输入之间的这个差值，就叫做残差。

更本质地说，我们实际上是从“学习一个从输入到输出的完整映射”，变成了“只学习这个差值”。数学直觉和经验告诉我们，学习这个差值，要比学习完整映射简单得多。

这种结构画在图中通常是这个样子：这里有要学习的函数F(x)，有某一层的输入x，它们加在一起构成了这一层的输出。

这就是传统的残差连接（Residual Connection）。

别看这个结构简单到几乎“无脑”，它可是从最原始的Transformer架构诞生以来就基本上没变过的基座。

即便经历了这么多次架构革新，残差连接依然屹立不倒。因为最基础的部分，往往也是最容易被忽略的部分。久而久之，人们也形成了“它就该这样”的固有思维。

直到后来，字节跳动和DeepSeek分别提出了HyperConnection（超连接）和Muon（流行约束的超连接），第一次有人在这里动了手脚。

简单理解一下：标准残差就是每层经过一个乱七八糟的函数变换时，无脑地把之前的值加过来。这个函数可以是注意力层，也可以是MoE层，不重要，反正就相当于一个大函数。

但传统残差连接有个问题——太死板了。x1的信息传递到x4时，可能已经扭曲得不成样子了。

字节的HyperConnection提出了一个方案：拓展通道数。简单说就是把x1复制多份，同时往后也不再是简单地加过去，而是乘上一个可学习的矩阵。这样信息传递就有更多机会被保留下来。

但这个学习矩阵如果不加约束，连乘起来可能又会失控，重新引发梯度爆炸的风险。

所以DeepSeek的Muon就对这些学习矩阵加了流行约束——简单说就是让这些学习矩阵不论怎么乘，都在一个可控范围内。这其实不是个新的残差方案，而是对HyperConnection的一种改良。

但是从更宏观的视角看，不论怎么优化，这几个方法都是在做同一件事：把残差流从左到右，一层一层地加过去。

03 回忆一下，没有注意力的世界

还记不记得，在没有注意力机制的时候，语言模型是怎么工作的？

不论是RNN还是LSTM，要让每个字都包含上下文信息，办法就是从头到尾不断加过去。

正是因为这种传递方式效率实在太低，才有了后来的Transformer——现在大模型的鼻祖，基于注意力机制的架构横空出世。

它一步到位，同时把各个位置的词都拿出来进行一种加权求和。

既然注意力机制在空间维度上如此成功，那么问题来了——

残差连接，是否也可以用类似的思路进行改进？

这不就巧了吗？Kimi也是这么想的。

04 旋转90度的神来之笔

用注意力来改进残差，名字也非常好起，就叫注意力残差（Attention Residuals）。

具体来说：

传统残差的思路，就是最左边那张图，一层一层傻乎乎地加过去。

而注意力残差，就是直接一眼看向全部，选择性地加权聚合所有前一层的输出。

最右边那张图，是为了缓解层数太多导致的注意力计算消耗过大，而采用的分块思想——和QKV分组等思想有异曲同工之妙。

现在，跳出细节，让我们回顾一下整个演进过程：

最开始，RNN在时间维度上依次累加传递 → 变成了通过注意力机制全局加权求和 → 把它看成一个整体，就相当于在深度上做了一层注意力机制的计算 → 这就是Transformer的一层 → Transformer可以有很多层 → 残差就相当于在深度上模仿RNN在时间维度上的做法，依次累加传递。

如果想象不出来，把手机旋转90度。

实在不行，我帮你转：

这个方向上的计算方式，是不是也可以通过改成注意力机制来计算？

这就是Kimi产生注意力残差的灵感来源。

一起读一下原文中的这段话，我觉得写得非常美妙：

“时间与深度的对偶性：就像RNN在时间维度上的作用一样，残差连接在深度维度上将所有先验信息压缩成一个单一状态。在序列建模中，Transformer通过用注意力机制取代循环机制，从而改进了RNN，使得每个位置都能依赖于数据的权重，选择性地访问所有之前的位置。”

“在深度上，我们提出了同样的方法。”

这段话写得实在太美了。

再看卡帕西那条帖子的回复：

“LSTM就是将ResNet旋转90度得到的。事实证明，注意力机制同样是可以旋转90度的。”

残差流是权重？是不是没有充分理解Attention is all you need的美妙之处？

05 不止是灵感的胜利

当然，在深度学习领域，天马行空想出个什么新结构并不难。重要的是——有没有效果。

Kimi的实验结果表明确实有效：

训练效率提升了1.25倍，同等条件下各项跑分也有所提升。

总结一下残差这个多年不变、以至于很少有人想尝试改变的“老祖宗”。近几年经历了HyperConnection、Muon，再到今天的Kimi注意力残差，变种不断涌现。

深度学习就是这样神奇。

或许客观世界真的存在一个强大而有效的模型架构，只是我们还没有挖掘出来。我们需要更多这样勇敢而富有创造力的探索和努力，一点点逼近那个或许存在、又或许不存在的真实答案。

最后，我想用卡帕西的那句话作为结尾：

“Attention is all you need——这句话，现在看来有了全新的含义。”

如果你也被这种创新的勇气打动，欢迎在评论区分享你的感受。别忘了点赞、在看、转发，让更多人看到这种打破常规的技术之美。

01 从两个旋钮说起

02 一个“无脑”但绝妙的操作

03 回忆一下，没有注意力的世界

04 旋转90度的神来之笔

05 不止是灵感的胜利

全部回复（1）

参与讨论