news 2026/4/23 17:44:01

论文复现:KIVI: 一种无需调优的2位KV缓存量化算法

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
论文复现:KIVI: 一种无需调优的2位KV缓存量化算法

论文复现:KIVI: 一种无需调优的2位KV缓存量化算法

1. 论文标题

KIVI:一种无需调优的2位KV缓存量化算法,用于在LLM推理中实现更大的批处理大小

2. 论文内容:

本论文针对大语言模型(LLM)推理中KV缓存成为内存和速度瓶颈的问题,提出了一种名为KIVI的2位KV缓存量化方法。研究发现,Key缓存中存在少量通道具有极大值,应采用按通道量化;而Value缓存无此模式,应采用按令牌量化。KIVI采用分组策略,将KV缓存分为分组部分(量化存储)和残差部分(全精度存储),在解码时通过分块矩阵乘法结合。实验表明,KIVI可将Llama、Falcon和Mistral等模型的KV缓存压缩至2位,减少2.6倍峰值内存使用,支持最多4倍的批处理大小增加,带来2.35-3.47倍的吞吐量提升,同时在多种生成任务上保持接近全精度的性能。

3. 完整代码实现及解释

importtorchimporttorch.nnasnnimporttorch<
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 12:24:45

自动化测试报告生成与分发:从PDF到PM和CTO的智能流程

在当今快速迭代的软件开发环境中&#xff0c;测试报告不仅是质量保证的核心输出&#xff0c;更是团队沟通的桥梁。作为软件测试从业者&#xff0c;我们常面临手动生成报告耗时、易错的问题。标题“我把测试报告生成PDF&#xff0c;自动发给PM和CTO”直指痛点&#xff1a;如何通…

作者头像 李华
网站建设 2026/4/23 10:48:56

Spring Boot Actuator+Prometheus+Grafana 生产级监控体系搭建

在微服务架构中&#xff0c;全链路监控是保障服务稳定性的核心能力&#xff0c;缺乏监控会导致故障定位滞后、性能瓶颈无法感知、线上问题排查困难。Spring Boot Actuator 提供服务自身指标暴露能力&#xff0c;结合 Prometheus 指标采集与 Grafana 可视化&#xff0c;可构建 “…

作者头像 李华
网站建设 2026/4/23 13:30:35

Duplicate Cleaner Pro 重复文件清理工具 (Win)!重复图片搜索 / 释放硬盘空间

软件获取地址 重复文件清理软件 很多人都会遇到电脑越用越卡&#xff0c;一查看原来是硬盘空间已经严重告急了。 为了彻底解决这个问题&#xff0c;我试用了多款文件清理工具&#xff0c;但很多针对重复文件内容的清理功能都很简陋。而最近想要给硬盘大瘦身&#xff0c;终于找…

作者头像 李华
网站建设 2026/4/23 12:15:20

AI 走进收费亭:微笑服务如何被算法

微笑服务&#xff0c;终于可以被“量化”了你有没有注意过一个细节—— 在高速公路收费亭里&#xff0c;收费员是否微笑&#xff0c;往往决定了司机对整个收费站的第一印象。但问题来了&#xff1a;“微笑服务”这么主观的东西&#xff0c;真的能被考核吗&#xff1f;过去靠抽查…

作者头像 李华
网站建设 2026/4/23 12:19:12

canvas触摸事件详解:从基础类型到多点触控实现

Canvas触摸事件是移动端交互开发的核心技术之一&#xff0c;它让用户在触摸屏上直接操作Canvas元素成为可能。与传统的鼠标事件相比&#xff0c;触摸事件更贴近自然交互方式&#xff0c;但实现上也带来了一些独特的挑战和注意事项。掌握好Canvas触摸事件处理&#xff0c;能显著…

作者头像 李华