Talk Linear Attention

引言 自2017年Vaswani等人提出Transformer架构以来,基于Softmax Attention的注意力机制成为序列建模的核心组件,支撑了大语言模型的快速发展。但Softmax Attention存在二次计算复杂度的固有问题,随着序列长度$L$的增加,$O(L^2d)$的计算量和内存开销呈平方级增长,成为长序列建模和大模型高效推理、训练的核心瓶颈。 ...

Views: 0 · Created: 2026-03-10 · Updated: 2026-03-10 · 14 分钟 · 6982 字 · TensorPlay Team · 🤖 AI