共享内存通信机制——昇腾NPU集群中跨设备内存共享的实现原理与性能特征：以CANN SHMEM库为例的深度拆解——跨设备内存共享在昇腾NPU集群中的实现原理-深圳市維司達科技有限公司

前言

多卡分布式训练中，设备间的数据搬运效率直接决定了整个集群的算力利用率。传统的做法是"你发给我、我发给你"——通过RDMA或PCIe在显存之间来回拷贝，每多一次拷贝就多一份延迟。昇腾NPU集群面临同样的问题：4卡、8卡甚至千卡规模的训练环境中，梯度同步、参数更新、中间结果交换都需要跨设备数据通路。CANN生态中的SHMEM（Shared Memory）库为解决这个问题提供了一套基于"对称内存"模型的共享内存通信方案——它让每块NPU卡上的AICore核在Device侧就能直接读写远端设备的内存，不需要Host侧介入。本文从shmem仓库的真实源码出发，拆解这套机制的硬件基础、软件抽象层次和性能权衡。

对称内存：共享通信的基石

理解SHMEM的第一步，是先理解"对称内存"这个抽象概念。

假设有四个人围坐在一张方桌旁，每个人面前放着一个同样的篮子（如图书馆里每个座位标配的那种）。这个篮子的位置在每个人面前是对称的——如果我坐在1号位，我的篮子在我正前方；你坐在2号位，你的篮子在你正前方。如果没有对称性，我想知道2号位篮子里有什么，就需要站起来走到2号位旁边去看（这相当于传统的RDMA通信，需要显式的远程读）。有了对称性，我只需要把我的视线从我自己的篮子偏移到你的篮子位置，就能看到里面的东西。

SHMEM的对称内存模型就是这种思想的工程实现。每个PE（Processing Element，对应一块NPU卡）在初始化时分配一块大小相同、地址偏移关系固定的内存区域。通过aclshmem_ptr接口，可以把本地对称地址转换为远端PE上的实际物理地址，紧接着通过AICore核上的MTE（Memory Transfer Engine）或xDMA引擎直接读写：

// Device侧：通过对称地址转换实现远端内存直接读写__aicore__voidkernel_func(){// 本地对称地址__gm__float*local_buf=...;// 通过aclshmem_malloc获得// 转换为PE 1上的对应地址__gm__float*remote_buf=static_cast<__gm__float*>(aclshmem_ptr(local_buf,1));// 直接读取PE 1上的数据——不需要Host介入floatdata=remote_buf[0];// 直接写入PE 1上的数据remote_buf[0]=3.14f;}

对称内存模型的核心价值在于去中心化。传统MPI通信模型中，每次跨设备数据传输都需要Host侧CPU的调度和参与，调度延迟和上下文切换开销在高频小数据通信场景下尤其显著。昇腾NPU的AICore核内置了MTE引擎，可以通过芯片内的直接内存访问路径读写其他NPU卡上的全局内存（GM），完全绕过Host CPU。对称内存模型让AICore核在编译阶段就能计算出远端地址，无需运行时的地址解析，把通信延迟从微秒级压缩到纳米级。

三阶段初始化：从单点启动到全局互连

SHMEM的初始化流程分为三个阶段：唯一标识生成、属性填充、启动引导。

在一组NPU设备中，任意一个PE（称为PE 0）调用aclshmemx_get_uniqueid生成一个全局唯一的标识（Unique ID），并将这个ID通过MPI或其他通信机制分发给所有参与的PE。每个PE拿到Unique ID后，用自己的进程编号（my_pe）、总进程数（n_pes）、本地内存大小（local_mem_size）填充属性结构体，紧接着调用aclshmemx_init_attr传入启动标志和属性，完成SHMEM运行时的初始化。

// Host侧初始化流程（以PTA bootstrap模式为例）voidinit_shmem(intmy_pe,intn_pes,int64_tlocal_mem_size){aclshmemx_init_attr_t attr;aclshmemx_uniqueid_t uid;if(my_pe==0){// PE 0生成全局唯一IDaclshmemx_get_uniqueid(&uid);// 通过MPI广播给其他PEMPI_Bcast(&uid,sizeof(uid),MPI_BYTE,0,MPI_COMM_WORLD);}else{// 其他PE接收Unique IDMPI_Bcast(&uid,sizeof(uid),MPI_BYTE,0,MPI_COMM_WORLD);}// 填充属性：PE编号、总PE数、本地对称内存大小aclshmemx_set_attr_uniqueid_args(my_pe,n_pes,local_mem_size,&uid,&attr);// 初始化SHMEM运行时（启动所有内存管理、通信引擎、同步原语）aclshmemx_init_attr(ACLSHMEM_BOOTSTRAP_PTA,&attr);}

三阶段初始化分离了"谁是谁"（UDI生成）、“要多大”（内存分配）和"怎么连通"（bootstrap启动）三个关注点。Unique ID保证即使多个SHMEM实例运行在同一台物理机上，不同实例之间的内存区域互不干扰。bootstrap标志位（ACLSHMEM_BOOTSTRAP_PTA）选择通信后端的启动方式——PTA模式适合单机多卡场景，MPI模式兼容已有HPC集群的调度框架。local_mem_size参数在初始化阶段一次性锁定了对称内存堆的总大小，避免运行时动态扩容带来的碎片和延迟开销。

对称内存堆：Device侧与Host侧的协同管理

SHMEM在include/host/mem/shmem_host_heap.h中定义了对称内存堆的分配接口。与普通的malloc不同，SHMEM的对称内存分配不仅要为本地PE分配空间，还要在全局PE之间建立地址偏移映射关系，使所有PE的对称地址能通过aclshmem_ptr互相转换。

aclshmemx_malloc和aclshmemx_calloc接受一个额外的mem_type参数，用于指定内存位置是Device侧（DEVICE_SIDE）还是Host侧（HOST_SIDE）：

// Host侧：在NPU Device上分配对称内存（默认行为）void*dev_data=aclshmemx_malloc(1024*sizeof(float));// Host侧：在Host内存上分配对称内存void*host_data=aclshmemx_malloc(1024*sizeof(float),HOST_SIDE);// Device侧：获取对称内存堆的基地址void*heap_base=aclshmemx_get_heap_base(DEVICE_SIDE);// 释放对称内存aclshmemx_free(dev_data);aclshmemx_free(host_data,HOST_SIDE);

mem_type参数的存在是因为昇腾NPU集群的通信场景覆盖了D2D（Device到Device）、D2H（Device到Host）、H2D（Host到Device）、D2rH（Device到远端Host）和rH2D（远端Host到Device）五种通路。D2D通信通过芯片内MTE引擎直连，延迟最低（纳秒级），但仅限同一NPU域内的设备间传输。D2H和H2D通过PCIe链路，带宽受PCIe Gen5 x16的约64GB/s限制。Host侧对称内存允许AICore核直接读写主机内存，适合需要与CPU协同处理的场景（如数据预处理和结果回传）。aclshmemx_get_heap_base返回堆基地址，在跨PE地址转换中用于计算地址偏移量。

五引擎数据面：从MTE到UDMA的传输路径

SHMEM的数据面设计遵循"一台工具干一台活"的思路——用多台工具高质量地干多台活。include/device/shmem_def.h中的数据操作引擎类型枚举定义了SHMEM支持的五种底层传输引擎：

ACLSHMEM_DATA_OP_MTE（0x01）：AICore核内置的Memory Transfer Engine，昇腾910B/C上的SDMA（Scalar DMA）和昇腾950上的MTE3，负责芯片内和同域D2D传输。
ACLSHMEM_DATA_OP_SDMA（0x02）：系统级SDMA，负责Host-Device数据传输。
ACLSHMEM_DATA_OP_ROCE（0x04）：RDMA over Converged Ethernet，负责跨节点（Inter-node）通信。
ACLSHMEM_DATA_OP_UDMA（0x08）：用户态DMA引擎，通过UMD（User Mode Driver）直接调度DMA通道，减少内核切换开销。

RMA接口在Host侧和Device侧各有一套完整的类型宏生成体系。以Device侧的aclshmemx_mte_get_nbi为例，它同时提供连续地址和非连续地址（stride-based）两种数据搬运接口：

// Device侧：使用MTE引擎的非连续数据搬运// 假设要从远端PE的矩阵中提取特定行的数据，行的间隔为1024个元素__aicore__voidstrided_get_example(){// 定义非连续拷贝参数non_contiguous_copy_param copy_params;copy_params.repeat=64;// 重复搬64次copy_params.length=16;// 每次搬16个元素copy_params.src_ld=1024;// 远端源地址的行跨度（leading dimension）copy_params.dst_ld=16;// 本地目的地址的连续跨度// UB（Unified Buffer）上的临时缓冲区__ubuf__floatub_buf[256];// 使用MTE引擎异步发起非连续数据搬入aclshmemx_mte_get_nbi(dst_tensor,// 本地目标GlobalTensorsrc_tensor,// 远端源GlobalTensorub_buf,// UB临时缓存copy_params,// 非连续拷贝参数remote_pe,// 远端PE编号sync_id// 流水线同步ID);// 等待MTE引擎完成aclshmemx_mte_quiet();}

非连续数据搬运接口（non_contiguous_copy_param结构体）的存在是因为真实训练场景中的数据排布几乎都不是连续的一维数组。模型参数按层分布、梯度按op分组、激活值按batch排列——它们在显存中是分散存储的。如果每次搬运前都要先做一次内存重排（将分散数据拷贝到连续缓冲区），就会引入额外的memcpy开销。MTE引擎支持硬件级的stride计算，在数据搬入过程中直接在硬件层面完成地址重映射，零额外开销。non_contiguous_copy_param的repeat×length语义让MTE引擎在一次DMA请求中完成多次stride计算和数据搬运，最大化链路利用率。

通信域管理：从Team到2D拓扑的层次化拆分

SHMEM的Team（通信域）管理接口定义在include/host/team/shmem_host_team.h中，提供了从全局通信域拆分子域的完整机制。每个SHMEM程序启动时默认处于ACLSHMEM_TEAM_WORLD全局通信域中，开发者可以通过aclshmem_team_split_strided或aclshmem_team_split_2d创建子通信域。

aclshmem_team_split_2d将PE的集合按2D笛卡尔空间拆分，生成X轴和Y轴两个正交的Team，这种拆分方式天然适配Transformer类模型的分层并行策略——X轴Team处理Attention头间的通信，Y轴Team处理Layer间的通信：

// Host侧：创建2D笛卡尔通信域voidcreate_2d_teams(){aclshmem_team_t team_x,team_y;// 将8个PE拆分为2D网格（2行×4列）// X轴Team: 行内PE（共2组，每组4个PE）// Y轴Team: 列内PE（共4组，每组2个PE）intret=aclshmem_team_split_2d(ACLSHMEM_TEAM_WORLD,// 父通信域4,// X轴范围（每行4个PE）&team_x,// X轴Team&team_y// Y轴Team);// 获取X轴Team中的本地PE编号intmy_pe_x=aclshmem_team_my_pe(team_x);// 获取X轴Team中的PE总数intn_pes_x=aclshmem_team_n_pes(team_x);// 在不同Team间转换PE编号intpe_in_world=aclshmem_team_translate_pe(team_x,my_pe_x,ACLSHMEM_TEAM_WORLD);}

2D Team拆分是为了匹配昇腾NPU集群的物理拓扑结构。在一个8卡节点上，NPU之间的HCCS互连网络呈Cube Mesh拓扑，同一行或同一列内的NPU是直连的（1-hop通信）。通过aclshmem_team_split_2d创建的X轴和Y轴Team，其内部通信路径天然对应物理上的Mesh行和Mesh列，通信距离最短、延迟最低。Team内的RMA操作（如aclshmem_float_put配合Team参数）由SHMEM运行时自动路由到最优的硬件通路上，开发者不需要关心底层网卡号和交换机端口。

同步与原子操作：跨PE数据一致性的基石

跨设备内存共享的核心挑战不在于"能不能看到"，而在于"看到的是不是最新的"。SHMEM通过信号操作（Signal）和屏障同步（Barrier）两套机制维护数据一致性。

信号操作是一对一的同步原语：信标者（Signaler）向目标PE发送信号，信标者通过aclshmem_signal_set或aclshmem_signal_add修改目标PE的共享信号量；目标PE通过aclshmem_wait_until或aclshmem_test等待信号达到指定条件（等于、大于、小于等）。屏障同步是全局性的：aclshmem_barrier确保通信域内所有PE都执行到同一进度后才继续往下执行。

SHMEM的低阶MTE引擎接口（include/device/gm2gm/engine/shmem_device_mte.h）为昇腾950系列芯片提供了原子操作支持：

// Device侧：使用MTE引擎的原子取回（Atomic Fetch）// 假设要原子读取PE 3上的一个计数器值__aicore__voidatomic_example(){// 远端PE上的对称地址__gm__uint32_t*remote_counter=...;// 通过aclshmem_ptr获得// MTE引擎支持的原子取回操作// T支持：int32_t, uint32_t, float, int64_t, uint64_tuint32_told_value=aclshmemx_mte_atomic_fetch(remote_counter,3);// 从PE 3原子取值// MTE引擎支持的原子设置操作// T支持：uint32_t, uint64_taclshmemx_mte_atomic_set(remote_counter,3,old_value+1);// 在PE 3上原子累加// 清除MTE指令流水线aclshmemx_mte_quiet();}

MTE引擎的原子操作与通用GPU的atomicAdd有本质区别：MTE的原子操作仅限于同Die内的NPU之间（cross-PCIe通信不支持），因为原子一致性协议依赖于Die内的C2C（Chip-to-Chip）互连，跨PCIe链路的原子操作需要额外的协议层支持，延迟会从纳秒级升到微秒级。aclshmemx_mte_quiet负责在原子操作后清空MTE指令流水线，确保后续操作的触发条件建立在最新数据之上。MTE还使用sync_id流水线同步机制，允许多个未完成的原子操作排队执行，在保证顺序的前提下实现流水线级并行。

多实例与安全：生产环境的必选项

SHMEM在include/host/init/shmem_host_init.h中暴露了多实例上下文管理和TLS加密配置接口，这两者都是生产环境的刚需。

多实例支持通过aclshmemx_instance_ctx_get和aclshmemx_instance_ctx_set接口实现。在一个物理进程中可以创建多个独立的SHMEM实例，每个实例拥有独立的对称内存堆和通信域。这在多租户场景下极其关键——Kubernetes将同一NPU设备的不同AICore核分配给不同的Pod时，每个Pod的SHMEM实例需要彼此隔离，互不感知。

TLS加密通过aclshmemx_set_conf_store_tls在初始化前配置：

// Host侧：关闭TLS加密（仅限可信内网）int32_tret=aclshmemx_set_conf_store_tls(false,NULL,0);// Host侧：启TLS加密（使用默认加密套件）int32_tret=aclshmemx_set_conf_store_tls(true,NULL,0);// 必须在aclshmemx_init_attr之前调用aclshmemx_init_attr(ACLSHMEM_BOOTSTRAP_PTA,&attr);

TLS的开关设计直接对应了两种部署场景：在数据中心内部，TLS加密消耗的CPU算力和增加的延迟是不可接受的，因为跨设备通信发生在物理可信域内。在跨数据中心或混合云场景下，TLS加密是合规基线，SHMEM支持通过tls_info参数指定自定义加密套件和证书链。set_conf_store_tls必须在init_attr之前调用，因为TLS配置在初始化阶段即被固化到通信通道的握手协议中，初始化完成后无法动态修改。

理解shmem在昇腾NPU集群中的角色，需要把它放到整个通信栈中去看。在昇腾CANN的通信栈中，最底层是HCAI（HiAI Communication Abstraction Interface），它提供了跨设备内存访问的硬件抽象；shmem运行在HCAI之上，为上层应用提供了一套POSIX兼容的共享内存API。这意味着现有的基于共享内存编程的分布式应用，可以几乎不改代码地移植到昇腾NPU集群上运行，只需要将本机的共享内存操作替换为shmem的跨设备共享内存操作即可。

使用前和使用后的效率对比

以下从关键维度对比通用实现与优化实现的差异，帮助理解昇腾NPU上相关技术的实际收益：

维度	使用通用实现	使用优化实现	差异来源
开发效率	需手动配置多个步骤	封装后接口简洁	融合封装减少配置项
运行性能	单次调用开销较大	批量处理性能更优	算子融合减少kernel发射
资源占用	中间结果需多次HBM读写	数据保留在高速存储	减少HBM访问带宽
可维护性	多算子组合逻辑分散	单一算子逻辑内聚	接口简化降低维护成本

昇腾NPU集群中的shmem实现，还有一层容易被忽视的优化机会：NUMA-aware内存分配。在多插槽服务器上，每个CPU插槽有自己的本地内存（DDR），访问本地内存的延迟远低于访问远端内存。对于昇腾NPU与CPU的协同计算场景，如果数据分配到了远端NUMA节点，CPU对数据的读写延迟会显著增加。shmem支持NUMA感知的内存分配策略：通过shmem.numa_bind(node_id)可以指定共享内存在特定NUMA节点上分配，确保数据位于访问它的CPU的本地节点上。在8插槽服务器上，开启NUMA-aware分配后，跨设备共享内存的读写延迟可以从约280ns降低到约150ns（单跳访问），优化幅度接近47%。

仓库地址：https://atomgit.com/cann/shmem