news 2026/6/11 14:22:04

53:故障排查思路1:机台连不上EAP完整分层排查

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
53:故障排查思路1:机台连不上EAP完整分层排查

53:故障排查思路1:机台连不上EAP完整分层排查

一、本课学习目标

  1. 建立标准化四层分层排查模型,解决设备OFFLINE无法联机问题
  2. 区分物理层、网络层、HSMS传输层、SECS应用层各类不通故障特征
  3. 掌握Ping、端口探测、抓包、日志四种工具定位问题
  4. 梳理量产现场90%联机失败常见根因与快速修复方案
  5. 规范排查操作顺序,避免无效操作浪费产线停机时间

二、故障前置现象定义

故障统一现象:EAP界面设备状态持续灰色OFFLINE,无法建立HSMS会话,S1F1握手无应答。
分层排查总顺序(由底层到上层,严禁反向排查):物理线路→网络连通→HSMS链路→SECS协议会话。

三、第一层:物理硬件层排查(最基础)

检查项1:机台与交换机硬件状态

  1. 机台网口指示灯:绿灯常亮、黄灯闪烁代表线路正常;双灯不亮为线路断开
  2. 交换机端口:确认设备网线插紧,无松动、氧化、挤压破损
  3. 硬件更换测试:更换网线、更换交换机端口交叉验证,排除线缆/端口老化

检查项2:机台控制器供电与服务状态

  1. 机台工控机/PLC是否正常开机,无蓝屏、死机、自动重启
  2. 重启机台后需等待整机自检完成,未自检完毕HSMS服务不会启动

典型物理层故障特征

更换网线/端口后立刻恢复联机;网口无灯光;机台断电重启后临时恢复。

四、第二层:网络连通层排查(TCP/IP基础)

工具1:Ping连通测试

  1. 在EAP服务器CMD/终端执行 ping 设备IP
  2. 全丢包:路由不通、网段划分错误、设备IP冲突、防火墙拦截
  3. 偶尔丢包:线路干扰、交换机带宽瓶颈

工具2:端口连通探测

使用telnet、socket脚本测试HSMS监听端口(默认7000/7001)

  1. 端口拒绝连接:机台HSMS服务未启动、端口配置错误
  2. 连接超时:防火墙双向拦截、跨VLAN未放通策略

重点核对配置

  1. 机台静态IP、子网掩码、网关,禁止DHCP自动获取(重启IP变动直接断连)
  2. EAP内录入设备IP、端口与机台本地参数完全一致
  3. 网段/VLAN规划:调试网段与量产网段不可混用

典型网络层故障特征

Ping不通但网线灯正常;Ping通但端口无法连接;服务器重装系统后批量离线。

五、第三层:HSMS传输层排查(TCP会话)

核心核对参数(两端必须完全一致)

  1. DeviceID设备编号:EAP与机台HSMS配置数字完全相同,不一致建链失败
  2. HSMS模式:SS单会话/HS多会话,两端模式统一
  3. T5心跳超时:心跳周期参数两端匹配,过小会频繁断线

机台侧HSMS服务检查

  1. 确认机台后台HSMS服务进程处于Running运行状态
  2. 手动重启HSMS服务,观察是否能进入监听Listen状态
  3. 部分设备重启后HSMS服务不会自启动,需手动开启

EAP侧HSMS配置检查

  1. 设备配置是否误设为Disable禁用状态
  2. 多机台复用相同DeviceID,造成会话冲突互相挤断

典型HSMS层故障特征

Ping与端口全部通,但始终无法Select建立会话;抓包可见TCP连接建立后立即断开。

六、第四层:SECS/GEM应用层排查

核心检查项

  1. 机台GEM总开关未开启:HSMS链路正常,但拒绝所有SECS报文交互
  2. 机台本地设置为LOCAL锁定模式,Host通信权限关闭
  3. 设备固件版本过低,HSMS会话建立后不响应S1F1握手报文

验证方法

  1. 抓包查看:TCP连接正常,EAP发送S1F1后设备无S1F2回复
  2. 临时使用SECS模拟器对接设备,判断是机台问题还是EAP配置问题

典型应用层故障特征

TCP链路正常、HSMS会话短暂建立后自动断开,S1F1握手超时T3报错。

七、各类场景快速故障判定与处理方案

场景1:全部机台同时离线

根因:上联交换机故障、服务器网卡异常、核心VLAN策略变更
处理:检查核心交换机,重启服务器网卡,核对防火墙全局策略

场景2:单台设备突然离线,其余全部正常

根因:网线损坏、端口故障、设备IP冲突、本机HSMS进程卡死
处理:更换网线端口,重启机台HSMS服务,检查局域网IP占用

场景3:重启EAP后设备恢复,运行一段时间再次离线

根因:EAP内存泄漏、会话堆积未自动回收、服务器资源耗尽
处理:配置定时重启EAP通信服务,清理无效会话缓存

场景4:Ping通、端口通,但始终无法联机

根因:DeviceID不匹配、HSMS模式不一致、机台GEM功能关闭
处理:两端同步核对DeviceID,开启设备GEM总开关

场景5:夜间待机正常,早班开机全部离线

根因:机台夜间休眠自动关闭网口/HSMS服务,唤醒后服务未自启
处理:修改机台电源休眠策略,设置HSMS开机自启动

八、排查操作红线规范

  1. 禁止直接重启整机断电排查,优先重启HSMS通信服务,减少生产中断
  2. 量产高峰禁止修改服务器防火墙、VLAN、网段配置
  3. 排查IP冲突不可直接修改量产设备IP,需报备后错峰操作
  4. 多设备同时离线,优先检查公共网络设备,不要逐台重启机台
  5. 排查完成必须记录故障根因、处理动作,录入设备运维台账

九、本课核心总结

  1. 联机故障固定四层排查顺序:物理层 → 网络层 → HSMS传输层 → SECS应用层,不跳层排查。
  2. Ping仅验证三层网络连通,端口探测验证TCP,无法判断HSMS与GEM配置。
  3. DeviceID、HSMS模式、GEM总开关是Ping通后仍离线的三大高频诱因。
  4. 批量离线优先查公共网络;单台离线优先查本机硬件与本地服务。
  5. 抓包是区分HSMS层与SECS层问题的最终判定手段。

十、课后小作业

  1. 机台无法联机四层排查顺序是什么?
  2. Ping设备IP完全丢包,优先排查哪些内容?
  3. Ping和端口都正常,设备依旧OFFLINE,最常见三个原因?
  4. 整排机台同时批量离线,优先排查什么设备?
  5. 为什么故障排查优先重启HSMS服务,不直接整机断电重启?
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/11 14:21:00

5分钟构建企业级数据可视化平台:DataRoom大屏设计工具完全指南

5分钟构建企业级数据可视化平台:DataRoom大屏设计工具完全指南 【免费下载链接】DataRoom DataRoom是一款基于SpringBoot3.x、JDK17、Vue3.x、Vite8.x、Element-plus、Echarts6.x等技术栈的大屏设计器,具备大屏、仪表板设计、预览能力,支持My…

作者头像 李华
网站建设 2026/6/11 14:20:32

【万字文档+源码】基于springboot+vue宠物寄养系统 -学习项目资料分享

一、项目概述 【万字文档源码】基于springbootvue宠物寄养系1.1 项目背景 随着养宠人群的快速增长,宠物寄养需求日益旺盛,但传统线下寄养存在信息不透明、服务流程混乱、缺乏标准化管理等痛点,用户难以快速找到合适的寄养服务,商…

作者头像 李华