CXL内存池优化大语言模型Engram存储的技术实践-深圳市維司達科技有限公司

1. 项目概述：CXL内存池如何优化大语言模型中的Engram存储

在当今大语言模型(LLM)快速发展的背景下，模型规模的爆炸式增长带来了严峻的内存挑战。Engram条件存储作为一种创新的内存架构，通过将静态知识查找与动态计算解耦，为LLM提供了一种高效的词汇知识检索机制。然而，随着Engram模块容量呈指数级增长（未来可能达到数百GB规模），传统DRAM存储方案面临着成本高昂和扩展性受限的问题。

Compute Express Link (CXL)内存池技术的出现为这一挑战提供了突破性的解决方案。CXL作为一种新兴的互联协议，通过硬件级负载/存储语义和缓存行粒度访问，在细粒度内存操作中展现出显著优于传统RDMA的性能表现。我们的实验表明，基于CXL的共享内存池可以实现接近本地DRAM的端到端推理性能，同时降低高达60%的硬件成本。

关键创新点：Engram模块独特的稀疏访问模式（每个token仅需检索5KB数据）与CXL的低延迟特性完美匹配，使得远程内存访问的性能损失几乎可以忽略不计。

2. Engram架构深度解析

2.1 Engram条件存储的核心设计

Engram模块的架构灵感来源于现代N-Gram嵌入技术，但通过创新设计将其转化为可扩展的O(1)查找机制。如图1所示，Engram被集成到Transformer的特定层中（例如36层模型中的第2和第15层），位于注意力模块之前。其工作流程可分为四个关键阶段：

多粒度N-Gram提取：对每个token t，提取不同长度的N-Gram序列（如N=2, N=3）
多头部哈希映射：通过哈希函数将token ID转换为嵌入表索引
异步预取：从内存中获取对应的N-Gram嵌入
门控融合：将检索到的嵌入与当前隐藏状态h_t动态融合

# 简化的Engram前向传播伪代码 class EngramLayer(nn.Module): def forward(self, hidden_states, token_ids): # 步骤1：提取N-Gram bigrams = [token_ids[i:i+2] for i in range(len(token_ids)-1)] trigrams = [token_ids[i:i+3] for i in range(len(token_ids)-2)] # 步骤2：哈希映射 bigram_indices = [self.hash_fn(g) % self.vocab_size for g in bigrams] trigram_indices = [self.hash_fn(g) % self.vocab_size for g in trigrams] # 步骤3：嵌入检索（实际中采用异步预取） bigram_embs = self.embedding_table[bigram_indices] # shape: [seq_len, 2, emb_dim] trigram_embs = self.embedding_table[trigram_indices] # shape: [seq_len, 3, emb_dim] # 步骤4：门控融合 combined = self.gate(torch.cat([bigram_embs, trigram_embs], dim=1)) return hidden_states + combined

2.2 内存访问特性分析

Engram模块展现出独特的内存访问模式，这使其特别适合采用CXL内存池方案：

特性	描述	对内存系统的影响
只读访问	推理过程中嵌入表保持不变	无需考虑一致性问题，简化缓存设计
稀疏检索	每个token仅访问16个离散的320字节嵌入	需要高效的细粒度访问机制
延迟容忍	检索可与非Engram层计算重叠	允许适度的预取延迟
容量敏感	模型性能随嵌入表容量提升而持续改善	需要可扩展的大容量存储方案

在Qwen3-32B模型的实测中，当系统吞吐量为70,000 tokens/s时，Engram模块仅需约0.7GB/s的带宽，远低于PCIe Gen5的64GB/s容量。真正的挑战在于满足严格的延迟要求——在层间计算时间约56μs的窗口内完成预取。

3. CXL内存池技术详解

3.1 CXL vs RDMA架构对比

传统RDMA和CXL内存池的架构差异如图2所示。RDMA方案存在三个主要瓶颈：

软件栈开销：需要CPU介入数据搬移，增加延迟
消息语义限制：小数据包传输效率低下（64字节消息吞吐量下降75%）
粒度不匹配：最小传输单元通常为4KB，远大于Engram的320字节需求

相比之下，CXL通过以下创新解决了这些问题：

硬件级负载/存储指令：绕过操作系统和驱动，直接访问远程内存
缓存行粒度访问：支持64字节对齐操作，完美匹配Engram需求
地址空间统一：通过CXL.mem协议提供本地内存般的编程体验

3.2 CXL内存池实现方案

我们的原型系统采用XConn XC50256 CXL交换芯片构建，其主要规格如下：

参数	规格
PCIe版本	Gen5 x16
总带宽	512GB/s
最大服务器连接数	8
最大内存容量	4TB
延迟	<100ns

内存池的软件栈实现基于Linux DAX（Direct Access）设备模型，关键步骤如下：

初始化映射：

# 将CXL设备映射为/dev/cxl0 modprobe cxl_mem echo "0x0000:00:1c.0" > /sys/bus/pci/drivers/cxl_mem/new_id

内存区域注册：

// 示例：CXL内存注册代码 int fd = open("/dev/cxl0", O_RDWR); void* cxl_addr = mmap(NULL, size, PROT_READ|PROT_WRITE, MAP_SHARED, fd, 0); cudaHostRegister(cxl_addr, size, cudaHostRegisterDefault); // 用于GPU直接访问

高效检索优化：针对Engram的离散访问模式，我们设计了两种优化策略：

CPU端：采用OpenMP多线程并行memcpy
GPU端：开发定制CUDA内核实现直接P2P传输

4. 系统集成与性能优化

4.1 SGLang推理框架集成

在SGLang推理框架中集成CXL Engram池需要三个关键修改：

初始化流程：

class CxlEngramPool: def __init__(self, rank): if rank == (0,0): # 仅全局首个rank负责加载 self.load_embeddings_to_cxl() self.register_cxl_memory()

预取机制：

async def prefetch_engram(batch): token_ids = batch.get_token_ids() cxl_offsets = calculate_engram_offsets(token_ids) await transfer_async(cxl_offsets, gpu_buf)

计算融合：

// 融合Engram计算的自定义CUDA内核 __global__ void engram_fusion(float* hidden_states, float* engram_embs, ...) { int tid = blockIdx.x * blockDim.x + threadIdx.x; if (tid < seq_len) { // 门控融合计算 hidden_states[tid] += gate_weight * engram_embs[tid]; } }

4.2 性能实测数据

我们在2节点集群上进行了全面测试，硬件配置如下：

组件	规格
CPU	2× Intel Xeon 6766E (288核)
GPU	4× NVIDIA L20
本地内存	1TB DDR5
CXL内存池	256GB Samsung CXL内存卡

延迟测试结果：

批量大小	DRAM→CPU (μs)	CXL→CPU (μs)	CXL→GPU (μs)
1	12	15	28
16	18	22	45
256	35	42	88

端到端吞吐量对比(Qwen3-8B)：

配置	吞吐量(tokens/s)	下降比例
基线	4185.6	-
+Engram(DRAM)	3909.7	6.6%
+Engram(CXL)	3895.0	6.9%

数据表明，CXL方案与本地DRAM的性能差异不足1%，完全满足生产环境需求。

5. 成本效益分析与工程实践

5.1 硬件成本对比

基于当前市场价格，我们对比了不同规模下的存储成本：

Engram规模	节点数	本地DRAM成本	CXL池成本	节省比例
100GB	4	$12,000	$10,840	9.7%
400GB	8	$96,000	$21,880	77.2%
1TB	16	$240,000	$38,960	83.8%

成本优势主要来自三个方面：

内存整合：消除各节点的冗余内存配置
异构扩展：可混合使用不同代际的内存设备
弹性共享：空闲内存可被其他工作负载利用

5.2 实际部署经验

在Alibaba Cloud的实际部署中，我们总结了以下关键经验：

NUMA拓扑优化：

# 最佳实践：将CXL设备绑定到最近的NUMA节点 numactl --cpunodebind=0 --membind=0 ./sglang_launcher

PCIe通道分配：

# 检查PCIe带宽分配 lspci -vvv | grep -i width # 确保CXL适配器获得完整的x16带宽

温度监控：

# CXL内存温度监控脚本示例 import psutil def check_cxl_temp(): temps = psutil.sensors_temperatures() cxl_temp = temps['cxl'][0].current if cxl_temp > 85: # 阈值 trigger_cooling()

故障处理流程：

定期检查CXL链路状态：cxl list
实现自动故障转移：当检测到CXL设备异常时，自动回退到本地DRAM副本

6. 未来扩展方向

虽然CXL方案已展现出显著优势，仍有多个方向值得探索：

与KV Cache的共存优化：
- 动态分区：根据工作负载自动调整Engram与KV Cache的内存比例
- 智能预取：协调两种内存访问模式，避免带宽冲突
RDMA混合架构：
- 冷热数据分离：高频访问的Engram嵌入保留在CXL，低频数据移至RDMA
- 分层缓存：DRAM→CXL→RDMA的三级存储体系
压缩技术应用：
- 利用Engram嵌入的稀疏性，采用块稀疏压缩算法
- 实测表明，8:1压缩率下精度损失<0.5%
CXL 3.0升级：
- 期待新特性：内存一致性、更细粒度访问控制
- 潜在性能提升：预计延迟可再降低30-40%