CANN/GE-Backend问题定位指南-深圳市維司達科技有限公司

定位思路

【免费下载链接】triton-inference-server-ge-backendge-backend基于triton inference server框架实现对接NPU生态，快速实现传统CV\NLP等模型的服务化。项目地址: https://gitcode.com/cann/triton-inference-server-ge-backend

若运行模型过程中遇到问题，可参考如上定位流程使用相关工具进行问题定位。下面对常见问题进行梳理。

常见问题：

精度问题

默认插件使用fp16进行推理，若运行服务后，推理结果精度异常，可尝试添加如下参数启动，查看精度是否有所改善：

--backend-config=npu_ge,session.ge.exec.precision_mode_v2="origin"

若此方法精度仍有问题，则需要逐一对比算子精度。

onnx模型未找到、查找错误

当前程序会在模型文件夹中自动查询onnx结尾的文件作为推理模型，若文件夹中放置多个onnx文件，可能会导致执行模型与期望模型不匹配，具体执行模型名称可在日志中查找：

find onnx path: xxxx/xxxx/xxx.onnx

图解析问题：

若Log中出现如下字段：

aclgrphParseONNX execute failed, ret is: xxxxx

说明onnx解析过程中报错，需要启动plog日志，定位具体报错原因，如何使用plog请参考 Plog使用方法
常见的导致此问题的原因为未自行导出，使用官方镜像、输入输出字段不一致。

编译问题：

若Log中出现如下字段：

session_->CompileGraph failed, ret is: xxxxx

说明onnx在编译过程中报错，需要启动plog日志，定位具体报错原因，如何使用plog请参考 Plog使用方法

推理问题：

若server启动时未见异常，程序启动成功，在使用client.py 验证推理服务时，报错，则通过以下方式定位：
1，client端日志具体报错原因，若为调用模型名称、版本、input、output问题，需在客户端进行修改。 2，若调用过程中模型等配置无误，在server端出现报错

execute model failed, ret is: xxxxx

说明模型在执行推理过程中遇到问题，具体原因需打开plog进行定位

定位工具

plog使用：

在运行之前使用环境变量，修改Plog日志等级以及打印到标准输入输出：

export ASCEND_SLOG_PRINT_TO_STDOUT=1 export ASCEND_GLOBAL_LOG_LEVEL=1

具体功能描述请参考昇腾相关文档。
在开启plog情况下，将日志保存，搜索一个 'ERROR' 字段，查看具体报错原因。

详细使用请参考 Plog.md

dump_graph:

GE成图后会根据图中的节点进行深度优化，融合。若要查看具体融合、优化过程，可通过dump_graph 查看每一步融合过程。
在运行server 的模型脚本中，可添加如下字段进行GE图dump

--backend-config=npu_ge,dump_graph="1"

相关的GE图会dump到执行目录下的 dump_graph 目录下。

dump_data:

在推理问题定位过程中，有时需要存储每一个节点的输入输出信息，则可以通过dump data功能将执行过程中的输入输出进行保留从而定位问题。
在运行server 的模型脚本中，可添加如下字段进行GE图dump data

--backend-config=npu_ge,dump_data="1"

相关的tensor会dump到执行目录下的 dump_data 目录下。注：dump_data 文件夹需要手工在工作目录下创建好，然后再启动服务。

profiling:

在模型调优过程中，通常会通过profiling工具采集算子执行情况，进行进一步分析是否有优化空间。
当前框架已集成了profiling功能，只需要通过开启开关即可profiling采集
当前有两类采集方法：
动态采集：在程序启动时不执行采集，当需要采集时，通过使用msprof发送指令给主进程启动采集。好处：可以在出现问题或者推理开始后按需进行profiling采集，防止全周期采集导致数据过大。
普通采集：在程序启动后即开始进行采集，当主进程退出后进行数据整理打包。好处：使用简单，当可控进行推理时可以使用次方式。
详细使用说明请参考 Profiling使用方法

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考