53:故障排查思路1:机台连不上EAP完整分层排查
一、本课学习目标
- 建立标准化四层分层排查模型,解决设备OFFLINE无法联机问题
- 区分物理层、网络层、HSMS传输层、SECS应用层各类不通故障特征
- 掌握Ping、端口探测、抓包、日志四种工具定位问题
- 梳理量产现场90%联机失败常见根因与快速修复方案
- 规范排查操作顺序,避免无效操作浪费产线停机时间
二、故障前置现象定义
故障统一现象:EAP界面设备状态持续灰色OFFLINE,无法建立HSMS会话,S1F1握手无应答。
分层排查总顺序(由底层到上层,严禁反向排查):物理线路→网络连通→HSMS链路→SECS协议会话。
三、第一层:物理硬件层排查(最基础)
检查项1:机台与交换机硬件状态
- 机台网口指示灯:绿灯常亮、黄灯闪烁代表线路正常;双灯不亮为线路断开
- 交换机端口:确认设备网线插紧,无松动、氧化、挤压破损
- 硬件更换测试:更换网线、更换交换机端口交叉验证,排除线缆/端口老化
检查项2:机台控制器供电与服务状态
- 机台工控机/PLC是否正常开机,无蓝屏、死机、自动重启
- 重启机台后需等待整机自检完成,未自检完毕HSMS服务不会启动
典型物理层故障特征
更换网线/端口后立刻恢复联机;网口无灯光;机台断电重启后临时恢复。
四、第二层:网络连通层排查(TCP/IP基础)
工具1:Ping连通测试
- 在EAP服务器CMD/终端执行 ping 设备IP
- 全丢包:路由不通、网段划分错误、设备IP冲突、防火墙拦截
- 偶尔丢包:线路干扰、交换机带宽瓶颈
工具2:端口连通探测
使用telnet、socket脚本测试HSMS监听端口(默认7000/7001)
- 端口拒绝连接:机台HSMS服务未启动、端口配置错误
- 连接超时:防火墙双向拦截、跨VLAN未放通策略
重点核对配置
- 机台静态IP、子网掩码、网关,禁止DHCP自动获取(重启IP变动直接断连)
- EAP内录入设备IP、端口与机台本地参数完全一致
- 网段/VLAN规划:调试网段与量产网段不可混用
典型网络层故障特征
Ping不通但网线灯正常;Ping通但端口无法连接;服务器重装系统后批量离线。
五、第三层:HSMS传输层排查(TCP会话)
核心核对参数(两端必须完全一致)
- DeviceID设备编号:EAP与机台HSMS配置数字完全相同,不一致建链失败
- HSMS模式:SS单会话/HS多会话,两端模式统一
- T5心跳超时:心跳周期参数两端匹配,过小会频繁断线
机台侧HSMS服务检查
- 确认机台后台HSMS服务进程处于Running运行状态
- 手动重启HSMS服务,观察是否能进入监听Listen状态
- 部分设备重启后HSMS服务不会自启动,需手动开启
EAP侧HSMS配置检查
- 设备配置是否误设为Disable禁用状态
- 多机台复用相同DeviceID,造成会话冲突互相挤断
典型HSMS层故障特征
Ping与端口全部通,但始终无法Select建立会话;抓包可见TCP连接建立后立即断开。
六、第四层:SECS/GEM应用层排查
核心检查项
- 机台GEM总开关未开启:HSMS链路正常,但拒绝所有SECS报文交互
- 机台本地设置为LOCAL锁定模式,Host通信权限关闭
- 设备固件版本过低,HSMS会话建立后不响应S1F1握手报文
验证方法
- 抓包查看:TCP连接正常,EAP发送S1F1后设备无S1F2回复
- 临时使用SECS模拟器对接设备,判断是机台问题还是EAP配置问题
典型应用层故障特征
TCP链路正常、HSMS会话短暂建立后自动断开,S1F1握手超时T3报错。
七、各类场景快速故障判定与处理方案
场景1:全部机台同时离线
根因:上联交换机故障、服务器网卡异常、核心VLAN策略变更
处理:检查核心交换机,重启服务器网卡,核对防火墙全局策略
场景2:单台设备突然离线,其余全部正常
根因:网线损坏、端口故障、设备IP冲突、本机HSMS进程卡死
处理:更换网线端口,重启机台HSMS服务,检查局域网IP占用
场景3:重启EAP后设备恢复,运行一段时间再次离线
根因:EAP内存泄漏、会话堆积未自动回收、服务器资源耗尽
处理:配置定时重启EAP通信服务,清理无效会话缓存
场景4:Ping通、端口通,但始终无法联机
根因:DeviceID不匹配、HSMS模式不一致、机台GEM功能关闭
处理:两端同步核对DeviceID,开启设备GEM总开关
场景5:夜间待机正常,早班开机全部离线
根因:机台夜间休眠自动关闭网口/HSMS服务,唤醒后服务未自启
处理:修改机台电源休眠策略,设置HSMS开机自启动
八、排查操作红线规范
- 禁止直接重启整机断电排查,优先重启HSMS通信服务,减少生产中断
- 量产高峰禁止修改服务器防火墙、VLAN、网段配置
- 排查IP冲突不可直接修改量产设备IP,需报备后错峰操作
- 多设备同时离线,优先检查公共网络设备,不要逐台重启机台
- 排查完成必须记录故障根因、处理动作,录入设备运维台账
九、本课核心总结
- 联机故障固定四层排查顺序:物理层 → 网络层 → HSMS传输层 → SECS应用层,不跳层排查。
- Ping仅验证三层网络连通,端口探测验证TCP,无法判断HSMS与GEM配置。
- DeviceID、HSMS模式、GEM总开关是Ping通后仍离线的三大高频诱因。
- 批量离线优先查公共网络;单台离线优先查本机硬件与本地服务。
- 抓包是区分HSMS层与SECS层问题的最终判定手段。
十、课后小作业
- 机台无法联机四层排查顺序是什么?
- Ping设备IP完全丢包,优先排查哪些内容?
- Ping和端口都正常,设备依旧OFFLINE,最常见三个原因?
- 整排机台同时批量离线,优先排查什么设备?
- 为什么故障排查优先重启HSMS服务,不直接整机断电重启?