news 2026/5/10 5:15:42

CANN/GE-Backend问题定位指南

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CANN/GE-Backend问题定位指南

定位思路

【免费下载链接】triton-inference-server-ge-backendge-backend基于triton inference server框架实现对接NPU生态,快速实现传统CV\NLP等模型的服务化。项目地址: https://gitcode.com/cann/triton-inference-server-ge-backend

若运行模型过程中遇到问题,可参考如上定位流程使用相关工具进行问题定位。下面对常见问题进行梳理。

常见问题:

精度问题

默认插件使用fp16进行推理,若运行服务后,推理结果精度异常,可尝试添加如下参数启动,查看精度是否有所改善:

--backend-config=npu_ge,session.ge.exec.precision_mode_v2="origin"

若此方法精度仍有问题,则需要逐一对比算子精度。

onnx模型未找到、查找错误

当前程序会在模型文件夹中自动查询onnx结尾的文件作为推理模型,若文件夹中放置多个onnx文件,可能会导致执行模型与期望模型不匹配,具体执行模型名称可在日志中查找:

find onnx path: xxxx/xxxx/xxx.onnx

图解析问题:

若Log中出现如下字段:

aclgrphParseONNX execute failed, ret is: xxxxx

说明onnx解析过程中报错,需要启动plog日志,定位具体报错原因,如何使用plog请参考 Plog使用方法
常见的导致此问题的原因为未自行导出,使用官方镜像、输入输出字段不一致。

编译问题:

若Log中出现如下字段:

session_->CompileGraph failed, ret is: xxxxx

说明onnx在编译过程中报错,需要启动plog日志,定位具体报错原因,如何使用plog请参考 Plog使用方法

推理问题:

若server启动时未见异常,程序启动成功,在使用client.py 验证推理服务时,报错,则通过以下方式定位:
1,client端日志具体报错原因,若为调用模型名称、版本、input、output问题,需在客户端进行修改。 2,若调用过程中模型等配置无误,在server端出现报错

execute model failed, ret is: xxxxx

说明模型在执行推理过程中遇到问题,具体原因需打开plog进行定位

定位工具

plog使用:

在运行之前使用环境变量,修改Plog日志等级以及打印到标准输入输出:

export ASCEND_SLOG_PRINT_TO_STDOUT=1 export ASCEND_GLOBAL_LOG_LEVEL=1

具体功能描述请参考昇腾相关文档。
在开启plog情况下,将日志保存,搜索一个 'ERROR' 字段,查看具体报错原因。

  • 详细使用请参考 Plog.md

dump_graph:

GE成图后会根据图中的节点进行深度优化,融合。若要查看具体融合、优化过程,可通过dump_graph 查看每一步融合过程。
在运行server 的模型脚本中,可添加如下字段进行GE图dump

--backend-config=npu_ge,dump_graph="1"

相关的GE图会dump到执行目录下的 dump_graph 目录下。

dump_data:

在推理问题定位过程中,有时需要存储每一个节点的输入输出信息,则可以通过dump data功能将执行过程中的输入输出进行保留从而定位问题。
在运行server 的模型脚本中,可添加如下字段进行GE图dump data

--backend-config=npu_ge,dump_data="1"

相关的tensor会dump到执行目录下的 dump_data 目录下。 注:dump_data 文件夹需要手工在工作目录下创建好,然后再启动服务。

profiling:

在模型调优过程中,通常会通过profiling工具采集算子执行情况,进行进一步分析是否有优化空间。
当前框架已集成了profiling功能,只需要通过开启开关即可profiling采集
当前有两类采集方法:
动态采集:在程序启动时不执行采集,当需要采集时,通过使用msprof发送指令给主进程启动采集。好处:可以在出现问题或者推理开始后按需进行profiling采集,防止全周期采集导致数据过大。
普通采集:在程序启动后即开始进行采集,当主进程退出后进行数据整理打包。好处:使用简单,当可控进行推理时可以使用次方式。
详细使用说明请参考 Profiling使用方法

【免费下载链接】triton-inference-server-ge-backendge-backend基于triton inference server框架实现对接NPU生态,快速实现传统CV\NLP等模型的服务化。项目地址: https://gitcode.com/cann/triton-inference-server-ge-backend

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/10 5:15:41

可预测AI:从不确定性到可靠性的工程实践指南

1. 项目概述:从“黑盒”到“可预测”的工程范式转变在AI系统日益深入生产环境的今天,一个核心的工程挑战摆在我们面前:我们如何能提前知道一个模型在特定场景下会成功还是失败?这不仅仅是学术问题,更是决定一个AI项目能…

作者头像 李华
网站建设 2026/5/10 5:10:12

从零复刻Stripe官网动态背景:WebGL着色器与Next.js实战

1. 项目概述:从零复刻 Stripe 官网的炫酷动态背景 如果你是一名前端开发者,或者对现代网页的视觉表现力着迷,那你一定对 Stripe 的官网印象深刻。它那个丝滑流畅、色彩变幻的动态背景,早已成为业界的视觉标杆。很多人第一次看到时…

作者头像 李华
网站建设 2026/5/10 5:08:51

AI生图完全入门:核心概念与实践方法

AI生图技术正在快速改变视觉创作的方式。从Midjourney到Stable Diffusion,从专业设计师到普通用户,越来越多的人开始尝试用AI生成图像。然而,面对复杂的概念、繁多的工具和不确定的实践方法,许多人仍感到无从下手。本文将系统梳理…

作者头像 李华