Posts

引言自2017年Vaswani等人提出Transformer架构以来，基于Softmax Attention的注意力机制成为序列建模的核心组件，支撑了大语言模型的快速发展。但Softmax Attention存在二次计算复杂度的固有问题，随着序列长度$L$的增加，$O(L^2d)$的计算量和内存开销呈平方级增长，成为长序列建模和大模型高效推理、训练的核心瓶颈。 ...