news 2026/5/9 12:18:32

CANN HC Pre InvRms算子文档

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CANN HC Pre InvRms算子文档

custom-npu_hc_pre_inv_rms

【免费下载链接】cann-recipes-infer本项目针对LLM与多模态模型推理业务中的典型模型、加速算法,提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-infer

产品支持情况

产品是否支持
Atlas A3 推理系列产品
Ascend 950PR/Ascend 950DT

功能说明

HcPre中用于计算InvRms的部分,计算逻辑见InvRms计算公式

计算公式

InvRms公式

$$ \text{InvRms}(x) = \frac{1}{\text{RMS}(x)} $$

$$ \text{RMS}(x) = \sqrt{\frac{1}{N} \sum_{i=1}^{N} x_i^2 + \epsilon} $$

函数原型

custom.npu_hc_pre_inv_rms(Tensor x, *, float epsilon=1e-20) -> Tensor

参数说明

说明:

  • b(batch size)表示输入样本批量大小、s(sequence length)表示输入样本序列长度、hc(head count)表示注意力头数、d(head dimension)表示注意力头的维度数、T表示bs合轴后的大小。
  • xTensor):必选参数,输入Tensor,公式中用于计算的输入tensor。不支持非连续,数据格式支持ND,数据类型支持bfloat16,shape为[T, hc_mult, d]或[b, s, hc_mult, d]。

  • *:代表其之前的参数是位置相关的,必须按照顺序输入,属于必选参数;其之后的参数是键值对赋值,与位置无关,属于可选参数(不传入会使用默认值)。

  • epsilonfloat, 可选):计算RmsNorm公式中的$\epsilon$参数,Host侧参数,仅支持double类型,默认值为1e-20。

返回值说明

  • yTensor):计算公式中InvRms的输出tensor。数据格式支持ND,数据类型支持float,shape为[T, 1]或[b, s, 1]。

约束说明

  • shape 字段取值范围约束 | 字段名 | 取值规则与说明 | |--------------|-------------------------------------------| | hc_mult | 取值固定为: 4 | | d | 取值固定为:4096 |

  • 该接口支持推理场景下使用。

  • 该接口支持aclgraph入图。

  • 该接口与PyTorch配合使用时,需要保证CANN相关包与PyTorch相关包的版本匹配。

调用示例

  • 详见 test_npu_hc_pre_inv_rms.py

【免费下载链接】cann-recipes-infer本项目针对LLM与多模态模型推理业务中的典型模型、加速算法,提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-infer

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/9 12:17:33

Go Channel详解

Go Channel 详解 一、核心原理 1.1 什么是 Channel Channel 是 Go 中 goroutine 之间的通信管道,遵循 CSP(Communicating Sequential Processes)模型。核心思想:不要通过共享内存来通信,而应通过通信来共享内存。ch : …

作者头像 李华
网站建设 2026/5/9 12:17:31

CANN/ops-cv NMS掩码算子

NMSWithMask 【免费下载链接】ops-cv 本项目是CANN提供的图像处理、目标检测相关的算子库,实现网络在NPU上加速计算。 项目地址: https://gitcode.com/cann/ops-cv 产品支持情况 产品是否支持Ascend 950PR/Ascend 950DT√Atlas A3 训练系列产品/Atlas A3 推…

作者头像 李华
网站建设 2026/5/9 12:17:31

Arm DynamIQ架构性能监控单元(PMU)设计与实战

1. Arm DynamIQ性能监控单元架构解析在Arm DynamIQ多核处理器架构中,性能监控单元(PMU)作为硬件性能分析的核心模块,其设计直接影响到处理器性能调优的精度和效率。与传统PMU设计相比,DynamIQ架构的CLUSTERPMU模块具有三个显著特征&#xff1…

作者头像 李华
网站建设 2026/5/9 12:16:30

Apache Shiro 1.2.4 反序列化漏洞Shiro-550(CVE-2016-4437)

Apache Shiro 1.2.4 反序列化漏洞Shiro-550(CVE-2016-4437) 一、漏洞简介 1、Apache Shiro Apache Shiro是一款开源安全框架,提供身份验证、授权、密码学和会话管理。Shiro框架直观、易用,同时也能提供健壮的安全性。 2、影响范围…

作者头像 李华
网站建设 2026/5/9 12:14:24

CANN ops-math Cat连接算子

aclnnCat 【免费下载链接】ops-math 本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。 项目地址: https://gitcode.com/cann/ops-math 📄 查看源码 产品支持情况 产品是否支持Ascend 950PR/Ascend 950DT√Atlas A3 训练系列产…

作者头像 李华
网站建设 2026/5/9 12:12:46

昇腾AI模型压缩工具(AMCT)保存压缩重训练模型

save_compressed_retrain_model 【免费下载链接】amct AMCT是CANN提供的昇腾AI处理器亲和的模型压缩工具仓。 项目地址: https://gitcode.com/cann/amct 产品支持情况 产品 是否支持 Ascend 950PR/Ascend 950DT 量化感知训练:INT8量化:√INT4量化…

作者头像 李华