Talk Linear Attention
引言 自2017年Vaswani等人提出Transformer架构以来,基于Softmax Attention的注意力机制成为序列建模的核心组件,支撑了大语言模型的快速发展。但Softmax Attention存在二次计算复杂度的固有问题,随着序列长度$L$的增加,$O(L^2d)$的计算量和内存开销呈平方级增长,成为长序列建模和大模型高效推理、训练的核心瓶颈。 ...
引言 自2017年Vaswani等人提出Transformer架构以来,基于Softmax Attention的注意力机制成为序列建模的核心组件,支撑了大语言模型的快速发展。但Softmax Attention存在二次计算复杂度的固有问题,随着序列长度$L$的增加,$O(L^2d)$的计算量和内存开销呈平方级增长,成为长序列建模和大模型高效推理、训练的核心瓶颈。 ...