news 2026/5/9 12:49:10

HCCL故障检测配置指南

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
HCCL故障检测配置指南

HCCL_DFS_CONFIG

【免费下载链接】hccl集合通信库(Huawei Collective Communication Library,简称HCCL)是基于昇腾AI处理器的高性能集合通信库,为计算集群提供高性能、高可靠的通信方案项目地址: https://gitcode.com/cann/hccl

功能描述

HCCL提供了多种故障检测功能的开关设置,包括建链故障探测时间配置、集群心跳监测开关以及进程卡死检测开关等。这些检测功能开启后,能够在业务出现异常时快速定位并显示故障信息,有助于问题及时排查处理。

该环境变量支持以下配置项:

  • connection_fault_detection_time:建链故障探测时间。

    HCCL会在建链超时时启动建链失败根节点定位能力,并将失败根节点信息传播。整个过程耗时为:“connection_fault_detection_time”参数取值 + 10s的根节点信息传播时间。

    “connection_fault_detection_time”参数支持的取值:0,[20, 7200]。单位s,默认为20。

    该参数配置为“0”时,代表关闭建链故障探测功能,即建链失败时无额外等待时间,建链进程立即退出。

  • cluster_heartbeat:集群心跳监测开关,用于通信操作执行超时的情况下,扩散故障信息,并在运行日志中记录故障根节点信息。

    该参数支持两种取值:on(开启心跳监测功能)、off(关闭心跳监测功能),默认值为on。

    说明:关闭集群心跳监测开关后,通信操作执行超时的异常情况无法探测,集群故障扩散能力丢失,且根节点故障信息不会记录到运行日志中。

  • stuck_detection:进程卡死检测开关。

    该参数支持两种取值:on(开启进程卡死检测能力)、off(关闭进程卡死检测能力),默认值为on。

    对于通信性能非常敏感的场景,可通过此参数关闭进程卡死检测能力,但需要注意,关闭进程卡死检测能力后,不会再主动探测上报业务异常卡死故障。

  • inconsistent_check:算子下发不一致检测开关。

    该参数支持两种取值:on(开启进程算子下发不一致检测能力)、off(关闭进程算子下发不一致检测能力),默认值为off。

    通过此参数可以开启进程算子下发不一致检测能力,但会产生一定的性能劣化。需要注意的是,默认情况下,关闭此开关后,不再主动检测并记录算子下发不一致的问题。

    说明:此功能不支持检测HcclBatchSendRecv算子和图模式场景,且开启后会生成数据缓存,占用HOST侧内存。

  • task_monitor_interval:算子的展开模式为AI CPU的场景下,开启算子task执行耗时时间监控。

    “task_monitor_interval”参数的取值范围为:[0, 7200000],单位ms,默认为0。

    • 取值为“0”时:关闭算子task执行耗时监控能力。

    • 取值大于“0”时:开启算子task执行耗时监控能力。当单个task执行耗时大于配置值时,则会打印该task信息,打印位置为“$HOME/ascend/log/run/device-*/”,日志关键词为“StreamTaskMonitor”。打印后会重新进行计时,即若单个task执行耗时为配置值的多倍,则会有多轮次打印信息。

      说明

      1. 该功能当前仅支持Atlas A3 训练系列产品/Atlas A3 推理系列产品,仅在通信算子展开模式为AI_CPU时生效。
      2. 该功能为异常时维测功能,开启后会对业务执行性能产生影响,因此不建议业务正常运行时开启。
      3. 当该配置取值小于100ms时,无法保证功能的完备性,同时可能对业务执行性能、功能造成较大影响,甚至可能导致业务执行失败。
      4. 该配置取值较小时,存在“$HOME/ascend/log/run/device-*/”目录下日志刷屏的风险。
      5. 该功能可作为task exception的辅助维测补充,在此场景下,建议配置数值略小于“1/2 * HCCL_EXEC_TIMEOUT环境变量取值”。

[!NOTE]说明 本环境变量提供的检测功能仅用于辅助定位集群故障点位置,在某些复杂场景下可能不是集群业务失败的根因位置。请基于探测事件的生成时间、被检测节点的具体报错进一步确认故障根节点位置。

配置示例

export HCCL_DFS_CONFIG="connection_fault_detection_time:30,cluster_heartbeat:on,stuck_detection:on,inconsistent_check:off,task_monitor_interval:0"

使用约束

支持的型号

Atlas A3 训练系列产品/Atlas A3 推理系列产品

Atlas A2 训练系列产品/Atlas A2 推理系列产品(针对Atlas A2 训练系列产品/Atlas A2 推理系列产品,仅支持Atlas 800T A2 训练服务器、Atlas 900 A2 PoD 集群基础单元、Atlas 200T A2 Box16 异构子框。)

【免费下载链接】hccl集合通信库(Huawei Collective Communication Library,简称HCCL)是基于昇腾AI处理器的高性能集合通信库,为计算集群提供高性能、高可靠的通信方案项目地址: https://gitcode.com/cann/hccl

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/9 12:48:15

CANN/runtime:共享队列管理API

17-02 共享队列管理 【免费下载链接】runtime 本项目提供CANN运行时组件和维测功能组件。 项目地址: https://gitcode.com/cann/runtime 本章节描述共享队列管理接口,用于队列的创建、销毁、入队、出队及路由管理。 aclError acltdtCreateQueue(const acltd…

作者头像 李华
网站建设 2026/5/9 12:48:14

CANN SuperKernel Scope分析指南

Scope 分析指南 【免费下载链接】cannbot-skills CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体,本仓库为其提供可复用的 Skills 模块。 项目地址: https://gitcode.com/cann/cannbot-skills 本文档提供详细的 SuperKernel Scope 范围分析方法&am…

作者头像 李华
网站建设 2026/5/9 12:46:07

CANN/ops-solver环境部署指南

环境部署 【免费下载链接】ops-solver 本项目是CANN提供的高级数值求解算子库,实现矩阵分解、求逆、特征值求解等功能在NPU上的加速计算。 项目地址: https://gitcode.com/cann/ops-solver 您在学习QuickStart或各类教程操作之前,请先参考下面步骤…

作者头像 李华
网站建设 2026/5/9 12:40:54

CANN/ops-cv双三次上采样梯度算子

UpsampleBicubic2dGrad 【免费下载链接】ops-cv 本项目是CANN提供的图像处理、目标检测相关的算子库,实现网络在NPU上加速计算。 项目地址: https://gitcode.com/cann/ops-cv 产品支持情况 产品是否支持Ascend 950PR/Ascend 950DTAtlas A3 训练系列产品/Atl…

作者头像 李华
网站建设 2026/5/9 12:40:29

CANN TensorFlow DynamicGRUV2构造函数

DynamicGRUV2构造函数 【免费下载链接】tensorflow Ascend TensorFlow Adapter 项目地址: https://gitcode.com/cann/tensorflow 功能说明 TensorFlow侧使用该接口,支持RNN类网络训练、推理。 函数原型 class DynamicGRUV2(_DynamicBasic):def __init__(s…

作者头像 李华
网站建设 2026/5/9 12:40:21

CANN/sip HcgemvBatched算子

信号处理加速库HcgemvBatchedOperation C Demo 【免费下载链接】sip 本项目是CANN提供的一款高效、可靠的高性能信号处理算子加速库,基于华为Ascend AI处理器,专门为信号处理领域而设计。 项目地址: https://gitcode.com/cann/sip 介绍 该目录下…

作者头像 李华