【大模型加速】KV缓存：小白也能看懂的大模型性能优化黑科技，让ChatGPT快如闪电！-深圳市維司達科技有限公司

KV 缓存是加速 LLM 推理的一种常用技术。要理解 KV 缓存，我们必须知道 LLM 如何输出下一个 Token。

算法原理

以下是基于 transformer 架构常见的产生下一个 token 的示意图，Transformer 为所有令牌生成隐藏状态，隐藏状态被投影到词汇空间，最后一个令牌的logits用于生成下一个令牌，对后续标记重复上述步骤。图示中使用 argmax 选择下一个 token，实际场景中一般top-k 或者 top-p 采样的方法随机产生下一个 token。

要生成一个新令牌，我们只需要最新令牌的隐藏状态。其他任何隐藏状态都不需要。

接下来，让我们看看注意力机制在 Transformer 层中是如何计算最后一个隐藏状态的。

在注意力机制中，我们首先计算查询矩阵和键矩阵的乘积，最后一行涉及最后一个词元的查询向量和所有键向量：

推理过程中不需要其他查询向量。此外，最终注意力机制结果的最后一行包含了最后一个查询向量以及所有键值向量。请查看下图以便更好地理解：

上述分析表明，要生成一个新的token，网络中的每次注意力操作只需要最后一个标记的查询向量，以及所有键值向量。

这里有另一个关键点：当我们生成新的token时，所有先前令牌使用的 KV 向量都不会改变。

因此，我们只需要为上一步生成的令牌生成一个 KV 向量。其余的 KV 向量可以从缓存中检索，以节省计算和时间。这叫做键值缓存（KV Caching）！与其冗余地计算所有上下文标记的 KV 向量，不如将它们缓存起来。

KV 缓存的算法流程

以下是使用 KV Caching 后生成下一个Token的计算流程：

为上一步生成的令牌生成 QKV 向量。
从缓存中获取所有其他 KV 向量。
计算注意力。
将新生成的KV值存储在缓存中。

KV 缓存带来的新挑战

如你所见，这可以节省推理时间。事实上，这就是为什么 ChatGPT 生成第一个 token 比后续 token 花费的时间更长的原因。在这段短暂的停顿期间，提示符的键值缓存会被计算出来。也就是说，KV缓存也占用大量内存。

以 Llama3-70B 为例，它的总层数 = 80，embedding 的维度 = 8k，最大输出尺寸 = 4k

这里：每个令牌在 KV 缓存中占用约 2.5 MB 的空间，4k 个token将占用 10.5 GB 的空间。

那么，如何系统的去学习大模型LLM？

作为一名深耕行业的资深大模型算法工程师，我经常会收到一些评论和私信，我是小白，学习大模型该从哪里入手呢？我自学没有方向怎么办？这个地方我不会啊。如果你也有类似的经历，一定要继续看下去！这些问题啊，也不是三言两语啊就能讲明白的。

所以我综合了大模型的所有知识点，给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢，我就曾放空大脑，以一个大模型小白的角度去重新解析它，采用基础知识和实战项目相结合的教学方式，历时3个月，终于完成了这样的课程，让你真正体会到什么是每一秒都在疯狂输出知识点。

由于篇幅有限，⚡️ 朋友们如果有需要全套《2025全新制作的大模型全套资料》，扫码获取~

👉大模型学习指南+路线汇总👈

我们这套大模型资料呢，会从基础篇、进阶篇和项目实战篇等三大方面来讲解。

👉①.基础篇👈

基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程，带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念，用最易懂的方式带你入门大模型。

👉②.进阶篇👈

接下来是进阶篇，你将掌握RAG、Agent、Langchain、大模型微调和私有化部署，学习如何构建外挂知识库并和自己的企业相结合，学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。

👉③.实战篇👈

实战篇会手把手带着大家练习企业级的落地项目（已脱敏），比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等，从而帮助大家更好的应对大模型时代的挑战。

👉④.福利篇👈

最后呢，会给大家一个小福利，课程视频中的所有素材，有搭建AI开发环境资料包，还有学习计划表，几十上百G素材、电子书和课件等等，只要你能想到的素材，我这里几乎都有。我已经全部上传到CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

相信我，这套大模型系统教程将会是全网最齐全最易懂的小白专用课！！

从0到1构建AI助手：大模型开发者必看的六层架构设计，小白也能秒懂！别再只会调API了！

这篇文章，我想用一张尽量简单、清晰的架构图，带你认识一个真正能落地的 AI 助手：它是如何“看到”用户、如何“思考决策”、如何“动手做事”，以及如何在后台持续记录、不断变得更聪明的。01 从哪里与 Agent 产生连接：…

李华

多店运动场馆预约小程序、我们这样开发！

多店运动场馆预约小程序、我们这样开发！ 网球馆、羽毛球馆、健身房、瑜伽馆、普拉提馆等运动场馆筹备需要准备的东西之定制小🍊序来啦[派对R] 📱支持场地预约、教务管理、次卡、储值、优惠券、营销活动、财务报表、扫码门禁、到店指引、团购…

李华

【Dify元数据最佳实践】：构建高可用Agent工具注册体系的4个关键步骤

第一章：Agent 工具注册的 Dify 元数据定义在构建基于 Dify 的智能 Agent 系统时，工具注册是实现功能扩展的核心环节。每一个注册工具都必须附带一组结构化的元数据，用于描述其能力、输入输出格式以及调用方式。这些元数据由 Dify 平台解析并用…

李华

使用蚁剑连接一句话木马远程控制小皮

首先我们启动小皮：事先写好一句话木马并以php的格式保存将木马文件放到小皮目录下在蚁剑中添加数据，输入url和连接密码，测试连接后发现连接成功此时我们便可以通过蚁剑访问本机文件了关于127.0.0.1127.0.0.1 是 IPv4 协议中预留的本地回环地址…

李华

混合检索中Dify查询优化的8个致命误区，90%工程师都踩过坑！

第一章：混合检索中Dify查询优化的核心挑战在构建基于大语言模型与知识库协同的智能应用时，Dify平台通过混合检索机制融合关键词匹配与向量语义搜索，以提升查询结果的相关性。然而，在实际应用中，该机制面临多项核心挑战…

李华

【大厂都在用的测试方法论】：基于Agent的Dify用例自动生成体系

第一章：基于Agent的Dify用例自动生成体系概述在人工智能与自动化测试深度融合的背景下，基于Agent的Dify用例自动生成体系应运而生。该体系通过部署轻量级智能代理（Agent），实现对Dify平台业务逻辑的动态感知与测试需求解…

李华