DeepSeek-V3.2 DSA

一、传统注意力机制的复杂度问题 自注意力机制(Self-Attention)的工作原理 在 Transformer 架构中,自注意力机制是核心组件之一。其基本计算过程如下: 输入表示:对于长度为 n 的序列,每个 token 被转换为 Query(Q)、Key(K)和 Value(V)三个向量 注意力分数计算:计算每个 Query 与所有 Key 的相似度分数 注意力分数矩阵:$Attention(Q, K) = QK^T / \sqrt{d_k}$ 这是一个 n × n 的矩阵,表示每个 token 与其他所有 token 的关联程度 注意力权重:对注意力分数矩阵的每一行应用 softmax 归一化,得到注意力权重矩阵 输出计算:使用注意力权重对 Value 进行加权求和,得到最终的输出表示 O(n²) 复杂度的来源 传统注意力机制的计算复杂度为 O(n²),主要原因包括: 注意力分数矩阵的计算 需要计算所有 Query 与所有 Key 之间的相似度 对于长度为 n 的序列,需要计算 n × n 个注意力分数 矩阵乘法 $QK^T$ 的复杂度为 O(n²·d),其中 d 是特征维度 内存复杂度 需要存储完整的 n × n 注意力分数矩阵 对于长序列(如 n = 100,000),需要存储 10¹⁰ 个浮点数 显存占用随序列长度平方增长 计算瓶颈...

December 25, 2025 · 2 min · LwQ