deepseek-v3 论文阅读

2025-02-19 分类：未分类阅读(10) 评论(0)

先回忆下MHA, 在每个head上, 分别经过K, V生成 $ attnweights=(W_Qh_i)^T∗(W_Kh_j) $, 然后再乘上V得到: $attnsv=attnweights * (W_vh_j) $, 当输入的token一致时, 经过
$W_k$计算的结果一致的, 所以就可以把经过K和V计算的中间结果缓存下来用于节省算力. 但序列变长也会导致KVCache的数量爆炸, 导致显存瓶颈.

未经允许不得转载：小健博客 » deepseek-v3 论文阅读

大前端WP主题更专业更方便

联系我们联系我们

QQ咨询
QQ咨询
回顶
回顶部

相关推荐

大前端WP主题 更专业 更方便

QQ咨询

回顶部

大前端WP主题更专业更方便