大模型面试题58：vLLM的Swap和Recompute？-深圳市維司達科技有限公司

vLLM 里的Swap和Recompute是两个专门解决GPU显存不足的“救星功能”。核心目标都是：在有限显存下，让你能跑更大的模型、处理更长的序列，不用因为显存不够就被迫降低模型规模或缩短文本长度。

先铺垫一个关键背景：
LLM推理时，KV Cache是显存占用的“头号大户”（比如跑 LLaMA-70B 处理 8k 序列，KV Cache 能占几十G显存）。其次是模型参数本身，最后是推理过程中产生的中间计算结果。
Swap 和 Recompute 就是针对这两类“显存消耗大户”的优化策略——一个是**“挪走暂时不用的数据”，一个是“重新计算代替存储数据”**。

一、入门级：先搞懂核心概念（小白一眼明白）

用一个通俗类比贯穿始终：
把GPU显存比作你家的桌面（空间小，但拿东西最快）；
把CPU内存比作抽屉（空间大，拿东西比桌面慢一点）；
把硬盘比作仓库（空间超大，拿东西最慢）；
把推理需要的数据（KV Cache/中间结果）比作桌面上的文件。

1. Swap：显存不够，“挪走”暂时不用的 KV Cache

（1）核心定义

Swap 直译是“交换”，在 vLLM 里特指KV Cache Swap——把暂时用不上的 KV Cache 数据，从 GPU 显存“挪”到 CPU 内存，甚至硬盘里；等需要的时候，再“搬”回 GPU 显存继续用。

（2）原理类比（小白秒懂）

你在桌面写论文，摊开的资料太多，桌面堆满了。

第一步：把暂时不用的参考资料放进抽屉（内存），桌面空了，继续写；需要某份资料时，再从抽屉拿出来放桌面。
第二步：如果抽屉也满了，就把不常用的资料放进仓库（硬盘），等要用到时再搬回来。

对应 vLLM 的 Swap 逻辑：

存储层级	类比	速度	作用
GPU 显存	桌面

渗透测试中ROCKYOU.TXT的实际应用

快速体验打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容： 开发一个渗透测试辅助工具，集成ROCKYOU.TXT字典，支持自动化密码爆破测试。工具应能针对不同服务(SSH,FTP,Web等)进行测试，记录尝试次数和成功率…

李华

Qwen3-VL-WEBUI部署成本太高？按需计费方案省60%

Qwen3-VL-WEBUI部署成本太高？按需计费方案省60% 1. 背景与痛点：传统部署模式的高成本瓶颈随着多模态大模型在视觉理解、图文生成、视频分析等场景中的广泛应用，Qwen3-VL 系列作为阿里云推出的最新一代视觉-语言模型，凭借其强大…

李华

AI如何自动生成中国地区数据可视化项目

快速体验打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容： 创建一个基于Vue.js和ECharts的中国地区数据可视化项目。要求包含中国各省份、直辖市和自治区的GDP、人口和人均收入数据，并以地图和柱状图形式展示。数据可以模拟生成…

李华

1小时打造无界鼠标原型：快马平台实战

快速体验打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容： 在快马平台上快速开发一个无界鼠标功能原型，实现基本的跨设备鼠标指针同步功能。要求支持至少两种设备类型，具备简单的设备发现和连接界面。使用平台提供的…

李华

Qwen3-VL 3D基础：空间推理支持

Qwen3-VL 3D基础：空间推理支持 1. 引言：视觉语言模型的进化与Qwen3-VL的战略定位随着多模态AI技术的快速发展，视觉-语言模型（VLM）已从简单的图文匹配演进为具备复杂推理、空间理解与代理能力的智能系统。在这一趋势…

李华

Qwen2.5-7B模型解释工具：云端可视化分析，调试效率翻倍

Qwen2.5-7B模型解释工具：云端可视化分析，调试效率翻倍引言作为一名长期研究大模型的算法工程师，我深知模型调试和分析的重要性。当我们训练或微调一个像Qwen2.5-7B这样的大模型时，最大的挑战不是让它运行起来，而是…

李华

一、 入门级：先搞懂核心概念（小白一眼明白）