news 2026/4/23 20:17:45

LLM 推理加速:深入 vLLM 源码,揭秘 PagedAttention 如何让吞吐量提升 20 倍?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
LLM 推理加速:深入 vLLM 源码,揭秘 PagedAttention 如何让吞吐量提升 20 倍?

标签:#LLM #vLLM #PagedAttention #CUDA #Inference #SystemDesign


📉 前言:显存碎片的“诅咒”

在 vLLM 出现之前,HuggingFace Transformers 的默认推理极其浪费显存。
LLM 推理是自回归的(生成一个 Token,存入 KV Cache,再生成下一个)。传统的 KV Cache 管理方式是预分配 (Pre-allocation)
假设最大序列长度是 2048,系统就会直接在显存里划出一块能存 2048 个 Token 的连续空间。

问题来了:

  1. 内部碎片:用户只问了句 “Hi”,占用了 5 个 Token,剩下的 2043 个 Token 空间全部闲置,但无法被其他请求使用。
  2. 外部碎片:不同请求的长短不一,导致显存中充斥着无法合并的小空洞。

这导致 GPU 显存利用率通常不到20%。显存塞满了,但没跑几个并发请求,吞吐量自然上不去。


💡 一、 灵感来源:操作系统的虚拟内存

vLLM 的作者从操作系统(OS)中找到了灵感。
OS 是怎么解决内存碎片的?分页 (Paging)

  • 逻辑上连续的内存(虚拟内存),物理上可以是离散的(物理页框)
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 13:04:18

机器学习周报三十一

文章目录摘要Abstract1 TripleFDS2 Flux-Text总结摘要 本周看了两篇关于场景文本编辑的论文,达到了最新的SoTA的论文,学习到了数据集构建和损失函数构造对模型性能提升至关重要。 Abstract This week, I read two papers on scene text editing, both…

作者头像 李华
网站建设 2026/4/23 14:55:14

关于弦理论的十维自洽的个人见解

近日,看到一篇关于弦理论需要十维才能自洽的科普类作品,其中提到人类世界处在31个维度里面(即三维世界加时间轴的四维空间里),从数学角度似乎另外6个维度是假设它们在极小尺寸下才能让理论得以运行。 我个人有个看法&a…

作者头像 李华
网站建设 2026/4/23 16:05:33

2026年国产时序数据库市场全景:从技术突破到行业落地

摘要: 进入2026年,在“数字中国”与工业物联网浪潮的强劲推动下,国产时序数据库市场持续繁荣,竞争格局日趋清晰。本文将对当前主流的国产时序数据库进行梳理盘点,并特别聚焦于金仓数据库(Kingbase&#xff…

作者头像 李华