DSA | LwQ's Blog

一、传统注意力机制的复杂度问题自注意力机制（Self-Attention）的工作原理在 Transformer 架构中，自注意力机制是核心组件之一。其基本计算过程如下：输入表示：对于长度为 n 的序列，每个 token 被转换为 Query（Q）、Key（K）和 Value（V）三个向量注意力分数计算：计算每个 Query 与所有 Key 的相似度分数注意力分数矩阵：$Attention(Q, K) = QK^T / \sqrt{d_k}$ 这是一个 n × n 的矩阵，表示每个 token 与其他所有 token 的关联程度注意力权重：对注意力分数矩阵的每一行应用 softmax 归一化，得到注意力权重矩阵输出计算：使用注意力权重对 Value 进行加权求和，得到最终的输出表示 O(n²) 复杂度的来源传统注意力机制的计算复杂度为 O(n²)，主要原因包括：注意力分数矩阵的计算需要计算所有 Query 与所有 Key 之间的相似度对于长度为 n 的序列，需要计算 n × n 个注意力分数矩阵乘法 $QK^T$ 的复杂度为 O(n²·d)，其中 d 是特征维度内存复杂度需要存储完整的 n × n 注意力分数矩阵对于长序列（如 n = 100,000），需要存储 10¹⁰ 个浮点数显存占用随序列长度平方增长计算瓶颈...