news 2026/4/23 11:30:23

常用运维故障排查命令

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
常用运维故障排查命令

常用运维故障排查命令

      • 一、 网络诊断 (Network)
      • 二、 系统状态与资源 (System & Resources)
      • 三、 进程与性能分析 (Process & Performance)
      • 四、 日志排查 (Logging)
      • 五、 安全与权限 (Security & Permission)
      • **高级组合与排查思路**

这是一份精心整理的运维故障排查命令清单,涵盖网络、系统、进程、性能、日志和安全等核心场景,并附有简明解释和常用参数。

一、 网络诊断 (Network)

  1. ping- 测试主机连通性

    • ping -c 4 8.8.8.8(发送4个包后停止)
    • ping -I eth0 目标IP(指定网卡发送)
  2. traceroute/tracepath/mtr- 追踪数据包路径

    • traceroute www.baidu.com
    • mtr --report www.google.com(动态实时追踪,更强大)
  3. netstat- 查看网络连接、路由表、接口统计(旧版,部分系统已淘汰)

    • netstat -tunlp(查看所有监听端口及进程)
    • netstat -rn(查看路由表)
  4. ss-netstat的现代替代品,速度更快

    • ss -tunlp(功能同netstat -tunlp
    • ss -s(查看套接字统计摘要)
  5. dig/nslookup- DNS 查询

    • dig www.example.com A(查询A记录)
    • dig @8.8.8.8 example.com MX(指定DNS服务器查询MX记录)
    • nslookup www.example.com(交互式查询)
  6. nmap- 端口扫描和网络探测

    • nmap -sT -p 1-1000 目标IP(TCP连接扫描常用端口)
    • nmap -sU -p 53,161 目标IP(UDP端口扫描)
    • nmap -O 目标IP(尝试识别操作系统)
  7. tcpdump- 命令行网络抓包分析

    • tcpdump -i eth0 port 80(抓取eth0网卡80端口的包)
    • tcpdump -i any host 192.168.1.1 -w file.pcap(抓取特定主机的包并保存)
    • tcpdump -n -vvv(禁用主机名解析,显示更详细信息)
  8. telnet/nc(netcat)- 测试TCP/UDP端口连通性

    • telnet 目标IP 端口(测试TCP端口是否开放)
    • nc -zv 目标IP 端口(快速测试TCP端口)
    • nc -u 目标IP UDP端口(测试UDP端口)
  9. curl/wget- HTTP/HTTPS 请求与下载

    • curl -I http://example.com(仅获取HTTP头部)
    • curl -v http://example.com(显示详细连接过程)
    • curl -X POST -d ‘data’ http://api(发送POST请求)
    • wget --spider --timeout=5 URL(模拟爬虫,检查URL可达性)
  10. iptables/firewall-cmd(firewalld)- 防火墙规则查看

    • iptables -L -n -v(查看所有规则,数字显示端口/IP)
    • firewall-cmd --list-all(查看firewalld所有区域和规则)

二、 系统状态与资源 (System & Resources)

  1. top/htop- 动态查看进程和系统资源占用

    • top(经典工具,按P按CPU排序,M按内存排序)
    • htoptop的增强版,色彩丰富,支持鼠标操作)
  2. uptime- 查看系统运行时间与平均负载

    • 输出示例:12:30:00 up 30 days, 1:23, 2 users, load average: 0.05, 0.10, 0.15
  3. free- 查看内存使用情况

    • free -h(以人类可读的单位显示,如G、M)
    • free -m(以MB为单位显示)
  4. df- 查看磁盘空间使用情况

    • df -h(人类可读格式)
    • df -i(查看inode使用情况,防止“磁盘有空间但无法创建文件”的问题)
  5. du- 查看目录/文件占用的磁盘空间

    • du -sh /var/log/(查看/var/log目录的总大小)
    • du -h --max-depth=1 /home(查看/home下第一级子目录大小)
  6. vmstat- 报告虚拟内存、进程、CPU活动等统计信息

    • vmstat 2 5(每2秒采样一次,共采样5次)
  7. iostat- 查看CPU统计和磁盘I/O情况

    • iostat -dx 2(显示扩展磁盘统计,每2秒刷新)
    • iostat -c(仅显示CPU使用率)
  8. sar- 系统活动报告器,历史性能数据查询

    • sar -u 1 3(查看CPU使用率,每秒1次,共3次)
    • sar -b 1 3(查看I/O和传输速率)
    • sar -r(查看内存使用历史)
    • sar -n DEV(查看网络接口历史流量)

三、 进程与性能分析 (Process & Performance)

  1. ps- 显示当前进程状态快照

    • ps aux(显示所有用户的所有进程详细信息)
    • ps -ef(标准格式)
    • ps -eo pid,ppid,cmd,%mem,%cpu --sort=-%cpu | head(按CPU使用率排序并显示前几名)
  2. pstree- 以树状图显示进程关系

    • pstree -p(显示PID)
  3. lsof- 列出打开的文件和进程

    • lsof -i :8080(查看谁在占用8080端口)
    • lsof /var/log/syslog(查看谁在打开这个日志文件)
    • lsof -p PID(查看指定进程打开的所有文件)
  4. strace/ltrace- 系统调用/库调用追踪

    • strace -f -p PID(追踪一个正在运行的进程及其子进程)
    • strace -e open,read,write command(追踪命令的特定系统调用)
    • ltrace command(追踪库函数调用)
  5. pidstat- 监控进程资源占用(CPU、内存、IO)

    • pidstat -u 2 5(每2秒报告一次各进程CPU使用,共5次)
    • pidstat -d(报告进程IO情况)
  6. perf- Linux性能分析工具(功能强大,较复杂)

    • perf top(实时显示消耗CPU最多的函数/符号)
    • perf record -g -p PID(记录进程的性能数据,生成火焰图数据)

四、 日志排查 (Logging)

  1. tail- 查看文件尾部内容

    • tail -f /var/log/syslog(实时追踪日志增长)
    • tail -n 100 /var/log/nginx/error.log(查看最后100行)
  2. head- 查看文件头部内容

    • head -n 20 /var/log/boot.log(查看文件前20行)
  3. grep- 强大的文本搜索工具

    • grep “error” /var/log/app.log(搜索包含“error”的行)
    • grep -E “error|fail” /var/log/app.log(使用正则,搜索error或fail)
    • grep -C 3 “keyword” file(显示匹配行前后各3行内容)
    • tail -f logfile | grep --line-buffered pattern(实时过滤日志流)
  4. journalctl- 查询systemd日志(适用于使用systemd的系统)

    • journalctl -f(实时追踪所有日志)
    • journalctl -u nginx.service(查看指定服务的日志)
    • journalctl --since “2023-10-01” --until “2023-10-02”(按时间范围查询)
    • journalctl -p err(只看错误级别以上的日志)

五、 安全与权限 (Security & Permission)

  1. last/lastb- 查看用户登录记录和失败尝试

    • last(查看所有成功登录历史)
    • lastb(查看失败的登录尝试)
  2. lsattr/chattr- 查看/修改文件扩展属性

    • lsattr filename(查看文件特殊属性,如i(不可修改)、a(只追加))
    • chattr +i file(给文件加上不可修改属性,防止误删)
    • chattr -i file(移除不可修改属性)

高级组合与排查思路

  • “黄金命令组合”:当服务不可用时,一个典型的排查链条是:

    1. curl/wget(测试服务自身HTTP响应)
    2. telnet/nc(测试端口可达性)
    3. ping(测试网络层连通性)
    4. traceroute(定位网络中断点)
    5. 如果前三步在本地通,远端不通 -> 检查安全组/防火墙:iptables -L/firewall-cmd --list-all
    6. 如果端口被占用 ->ss -tunlp | grep :端口lsof -i :端口
    7. 如果服务进程崩溃 ->journalctl -u 服务名tail -f /var/log/服务日志
    8. 如果服务器负载高 ->top->pidstat -u -p 高CPU进程PID->strace -p PIDperf
  • 磁盘I/O瓶颈iostat -dx 1%utilawait,同时用iotop定位哪个进程在大量读写。

  • 内存泄漏free -h观察可用内存持续下降,用ps aux --sort=-%memsmem找嫌疑进程,再用valgrind(开发环境)或pmap -x PID分析进程内存映射。

掌握这些命令,并理解它们背后的原理,你将能系统性地诊断和解决绝大多数运维故障。建议在测试环境中多加练习,形成自己的排查“肌肉记忆”。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 2:26:08

Flutter艺术探索-Flutter跨平台适配:Android/iOS/Web差异化处理

Flutter跨平台适配:如何为Android、iOS与Web打造平台原生体验 引言 “一次编写,处处运行”是Flutter吸引开发者的核心理念。但在实际项目中,我们常常发现,真正高质量的应用体验,恰恰来自于对“不同”的尊重。Android…

作者头像 李华
网站建设 2026/4/23 16:03:22

飞牛fnOS高危漏洞实战分析与应急处置指南(2026最新版)

文章目录飞牛fnOS高危漏洞实战分析与应急处置指南(2026最新版)一、漏洞概览与风险分析1. 未授权目录遍历(高危)2. 潜在恶意文件注入风险二、官方响应与漏洞现状三、深度实战分析四、紧急处置指南(实战场景)…

作者头像 李华
网站建设 2026/4/23 11:34:02

ue 购买 fbx 资产踩坑实录

ue 购买鞋子时,都出fbx,要选ue 版本,有的要安装插件, 安装好了以后, ue 需要打开,再导入。 不打开,导入就会失败。

作者头像 李华
网站建设 2026/4/23 14:48:34

复旦大学突破性研究:让AI像人类一样持续学习推理的“魔法环境“

这项由复旦大学与上海创新研究院、新加坡管理大学联合完成的突破性研究发表于2026年1月,论文编号为arXiv:2601.04809v2。有兴趣深入了解的读者可以通过该编号查询完整论文。当我们教孩子学数学时,会从简单的加减法开始,随着孩子能力提升&…

作者头像 李华
网站建设 2026/4/23 13:12:24

基于python的对家政行业的数据分析与可视化

目录 Python在家政行业数据分析与可视化的应用数据采集与清洗关键指标分析可视化技术业务优化建议工具推荐 项目技术支持可定制开发之功能亮点源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作 Python在家政行业数据分析与可视化的应用 Pyth…

作者头像 李华