Talk Linear Attention

Tue, 10 Mar 2026 12:00:00 +0800

引言

自2017年Vaswani等人提出Transformer架构以来，基于Softmax Attention的注意力机制成为序列建模的核心组件，支撑了大语言模型的快速发展。但Softmax Attention存在二次计算复杂度的固有问题，随着序列长度$L$的增加，$O(L^2d)$的计算量和内存开销呈平方级增长，成为长序列建模和大模型高效推理、训练的核心瓶颈。

TensorPlay 博客

Talk Linear Attention

引言