news 2026/6/10 4:51:45

Kubernetes Debug 专用镜像实践指南

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Kubernetes Debug 专用镜像实践指南

Kubernetes Debug 专用镜像实践指南

适用人群:SRE / DevOps / 运维工程师

适用场景:Kubernetes 生产环境排障、网络/进程/资源问题快速定位


一、为什么需要 Debug 专用镜像

在实际生产环境中,我们常见的业务镜像往往具备以下特点:

  • 基于alpine/debian-slim/distroless
  • 体积极小,攻击面低
  • 不包含任何运维排障工具

常见问题包括:

  • ps: command not found
  • ss / netstat / top / free不存在
  • 无法抓包、无法定位端口、无法确认真实启动参数

结论

生产镜像应该极简,但排障能力不能没有。

因此,一个Debug 专用镜像是 Kubernetes 运维体系中的必备组件。


二、Debug 镜像设计原则

一个合格的 Debug 镜像应满足:

  1. 工具齐全

    • 进程:pstop
    • 网络:ssnetstattcpdump
    • 系统:freeuptimevmstat
    • 基础工具:curlwgetbash
  2. 系统稳定

    • Debian / Ubuntu LTS
  3. 镜像可控

    • 内部镜像仓库
    • 固定 tag,不随意变更
  4. 仅用于排障,不承载业务


三、推荐基础镜像选择

推荐使用:

  • debian:11
  • ubuntu:22.04

本文以Debian 11为例。


四、Debug 镜像 Dockerfile 示例

FROM debian:11 LABEL maintainer="sre@company.com" LABEL description="Kubernetes Debug Image" # 替换为大陆镜像源(阿里云) RUN sed -i 's@deb.debian.org@mirrors.aliyun.com@g' /etc/apt/sources.list \ && sed -i 's@security.debian.org@mirrors.aliyun.com/debian-security@g' /etc/apt/sources.list # 安装常用运维调试工具 RUN apt-get update && apt-get install -y \ procps \ iproute2 \ net-tools \ tcpdump \ curl \ wget \ vim \ less \ lsof \ strace \ bash \ && rm -rf /var/lib/apt/lists/* CMD ["bash"]

五、镜像包含工具说明

分类工具用途
进程ps / top查看进程、CPU、内存
网络ss / netstat查看端口、连接状态
抓包tcpdump网络问题定位
系统free / uptime资源使用情况
文件lsof端口与进程映射
调试strace系统调用分析

六、构建并推送镜像

docker build -t registry.example.com/ops/k8s-debug:debian11.docker push registry.example.com/ops/k8s-debug:debian11

建议:

  • 放入公司私有镜像仓库
  • tag 固定(如debian11/v1.0

七、在 Kubernetes 中使用 Debug 镜像(推荐)

方式一:kubectl debug(最佳实践)

kubectl debug pod/mx-devops-frontend\-it\--image=registry.example.com/ops/k8s-debug:debian11\--target=frontend

特点:

  • 不影响原 Pod
  • 共享网络 / PID / 文件系统(取决于配置)
  • 排障完成即可退出

方式二:临时 Debug Pod

apiVersion:v1kind:Podmetadata:name:debug-toolsspec:containers:-name:debugimage:registry.example.com/ops/k8s-debug:debian11command:["sleep","36000"]

适合:

  • 长时间排查
  • 网络连通性测试

八、常用排障命令速查

查看完整进程启动参数

psauxww

查看监听端口

ss -lntp

查看端口被哪个进程占用

lsof-i :3000

抓包(示例)

tcpdump -i any port80

九、生产环境最佳实践建议

  1. 业务镜像与 Debug 镜像严格分离
  2. 禁止在业务镜像中安装 tcpdump
  3. Debug 镜像仅授予运维权限
  4. 结合 RBAC 控制 kubectl debug 权限

成熟团队一定有 Debug 镜像,没有只是时间问题。


十、总结

  • ps不存在 ≠ 系统有问题
  • 而是镜像设计选择问题
  • Debug 镜像是 Kubernetes 运维的“急救箱”

平时不用,但出事时必须能拿出来。


吐槽一下:

说好AI能更好效率工作,释放运维的工作,但是有些公司已经把非运维主要工作硬硬塞进来,已经成为了一个四不像了。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 14:07:44

基于VUE的企业信息管理系统 [VUE]-计算机毕业设计源码+LW文档

摘要:随着企业数字化转型的加速,高效、集成的企业信息管理系统成为提升企业竞争力的关键。本文详细阐述了基于VUE框架开发的企业信息管理系统,涵盖系统需求分析、技术选型、架构设计、功能模块实现等内容。该系统整合了系统用户管理、新闻数据…

作者头像 李华
网站建设 2026/6/10 15:01:41

list 的cpp简单模拟实现

节点类模板 template<class T> struct list_node {T _data; // 节点存储的数据list_node<T>* _next; // 指向下一个节点的指针list_node<T>* _prev; // 指向前一个节点的指针list_node(const T& data T()):_data(data),_next(null…

作者头像 李华
网站建设 2026/6/9 21:44:40

Modbus TCP关键知识点回顾

目录 1️⃣ 本质定位&#xff08;最关键&#xff09; 2️⃣ 数据模型&#xff08;必须会&#xff09; 3️⃣ 报文结构&#xff08;非常关键&#xff09; 4️⃣ 常用功能码&#xff08;重点记&#xff09; 5️⃣ 地址理解&#xff08;易踩坑&#xff09; 6️⃣ TCP 特性&a…

作者头像 李华
网站建设 2026/6/10 0:28:43

MR-J3-100BS4伺服驱动器

SGMG-09A6W-YG1 伺服电机 — 产品特点高精度控制&#xff1a;内置高分辨率编码器&#xff0c;可实现精确的位置、速度和方向控制&#xff0c;确保运动控制的稳定性和重复性。快速动态响应&#xff1a;具备出色的加速、减速和频繁启动能力&#xff0c;适合高动态运动和快速定位场…

作者头像 李华
网站建设 2026/6/10 10:47:51

免费标签打印软件与企业级标签打印软件评测,这样选最合适!

在“免费工具”和“专业软件”之间如何权衡&#xff1f;以下是两款代表性产品的分析&#xff1a;面向个人与小微企业的免费标签打印工具&#xff1a;代表&#xff1a;在线的条码生成器、二维码生成器&#xff08;如草料二维码的免费版&#xff09;&#xff0c;以及码尚云标签打…

作者头像 李华