【问题】长文本推理被「显存墙」卡住 在 32K 至 128K 超长上下文场景中,DeepSeek-V3.2-Exp 的 Decode 阶段需维护一个随序列长度线性增长的 Latent Cache。该 Cache 在 128K 下可占用数十 GB GPU 显存,迅速耗尽资源。
结果:
- Batch Size 无法扩大
- GPU 算力大量闲置
- 吞吐上不去,成本下不来
【策略】ESS 以「卸载 + 预取」 为核心:
- 将 Latent Cache 主体卸载到 CPU 内存
- 仅在 GPU 动态保留小而精的热点子集
- 在每步 Decode 前主动预取所需数据回 GPU
完全无损精度,打破 Batch Size 对 GPU 显存的依赖。
【方案】三层协同实现高效「卸载 + 预取」:
1. 高带宽传输,让数据「搬得快」🚀
挑战:Latent Cache 仅 656 字节、访问离散,传统拷贝带宽 <1 GB/s
方案:
- 基于 UVA,GPU 直访 CPU pinned memory
- 自研 FlashTrans 算子,聚合小请求、消除调度开销
效果:H2D/D2H 带宽达 37–43 GB/s 📈
2. 智能预取,让数据「搬得准」🎯
挑战:预取不准 → 无效搬运 → 性能反降
方案:
- 利用 Latent Cache 的强时间局部性
- GPU 用 LRU 管理 Sparse Memory Pool
- Prefill 阶段末尾 Top-K 条目预热缓存(LRU-Warmup)
效果:显著降低 Cache Miss
3. 计算通信重叠,让搬运「不挡路」🔄
挑战:Decode 计算量小,难掩传输延迟
方案:
- DA Overlap:用 Attention 前置计算掩盖 Latent Cache 预取延迟
- DBA Overlap:长上下文下沿 Batch 拆 Indexer,扩大重叠窗口
效果:数据搬运隐藏于计算流水线,关键路径无阻塞
【价值】吞吐显著提升 ✨
基于高精度模拟器测试结果,数据如下:
- 32K 上下文:吞吐提升 69.4%
- 128K 上下文:吞吐提升 123%
→ 显著降低长文本推理成本💰
更多详细内容,请阅读 ESS 技术报告全文:https://arxiv.org/abs/2512.10576。
提升超长上下文本推理吞吐,百度百舸 ESS 技术报告新鲜奉上
张小明
前端开发工程师
ncmdumpGUI终极指南:快速解锁网易云音乐NCM加密文件
你是否曾经在网易云音乐下载了心爱的歌曲,却发现只能在特定播放器上播放?那些被加密的.ncm文件就像被锁住的音乐宝盒,而今天我要介绍的ncmdumpGUI就是你打开这些宝盒的有效工具。这款基于C#开发的Windows图形界面工具能够将加密的NCM文件转换…
Android 渲染(二):Choreographer、SurfaceFlinger、HWComposer
Choreographer 作用: 负责接收和处理 App 的各种更新消息和回调,等到 Vsync 到来的时候统一处理。比如集中处理 Input(主要是 Input 事件的处理) 、Animation(动画相关)、Traversal(包括 measure、layout、draw 等操作) ,判断卡顿掉帧情况&am…
战略投资回报:Android构建工具升级的效率革命与竞争优势
战略投资回报:Android构建工具升级的效率革命与竞争优势 【免费下载链接】UltimateAndroidReference aritraroy/UltimateAndroidReference: 一个基于 Android 的参考代码库,包含了各种 Android 开发技术和最佳实践,适合用于学习 Android 开发…
创客匠人峰会深度解析:知识变现的 “信任 - 效率” 双闭环 —— 从 “单次交易” 到 “终身复购” 的增长密码
引言:峰会核心发现 —— 知识变现的终极形态是 “信任奠基 效率放大”2025 年 11 月 22 日 - 25 日,创客匠人主办的 “全球创始人 IPAI 万人高峰论坛” 在厦门海峡大剧院圆满落幕。这场汇聚 10000 余名全球创始人的盛会,以 “AI 重构生产力&…
Dreambooth-Stable-Diffusion图像超分辨率终极指南:从模糊到高清的AI画质优化实战
Dreambooth-Stable-Diffusion图像超分辨率终极指南:从模糊到高清的AI画质优化实战 【免费下载链接】Dreambooth-Stable-Diffusion Implementation of Dreambooth (https://arxiv.org/abs/2208.12242) with Stable Diffusion 项目地址: https://gitcode.com/gh_mir…
pyvideotrans视频翻译终极指南:从入门到精通
pyvideotrans视频翻译终极指南:从入门到精通 【免费下载链接】pyvideotrans Translate the video from one language to another and add dubbing. 将视频从一种语言翻译为另一种语言,并添加配音 项目地址: https://gitcode.com/gh_mirrors/py/pyvideo…