news 2026/4/23 3:23:48

Kubernetes 节点安全维护全流程:从驱逐 Pod 到彻底清理残留

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Kubernetes 节点安全维护全流程:从驱逐 Pod 到彻底清理残留

前言

在 Kubernetes 集群运维中,经常需要对单个节点进行维护,比如升级内核、重装 NVIDIA 驱动、扩容磁盘甚至重装系统。这时最核心的需求是:安全地将节点隔离出来,确保不影响集群其他部分,同时彻底清理本地残留,避免容器和 Pod 反复重建

下面分享一套经过实战验证的完整流程,适用于大多数基于 kubeadm 或类似方式部署的集群(版本 v1.20+ 均适用)。

1. 标记节点不可调度

防止新 Pod 被调度到目标节点。

kubectl cordon <node-name>

节点状态变为Ready,SchedulingDisabled

2. 删除节点上所有 Pod(包括 DaemonSet)

kubectl delete pod --all-namespaces --field-selector spec.nodeName=<node-name> --grace-period=0 --force

这一步会强制删除所有 Pod,包括 DaemonSet 管理的系统组件(如 calico-node、kube-proxy 等)。

3. 让节点进入 NotReady 状态(关键步骤)

这是阻止 DaemonSet Pod 重建的核心。

在目标节点上执行:

sudo systemctl stop kubelet sudo pkill -9 -f kubelet # 确保进程彻底结束

几秒到一分钟后,节点状态变为NotReady,SchedulingDisabled
此时即使 DaemonSet 控制器尝试创建新 Pod,也只会卡在 Pending 状态,不会真正启动容器。

4. 清理本地运行的容器

kubelet 停止前可能已拉起部分容器,需要手动清理。

sudo docker rm -f $(sudo docker ps -aq) # Docker 环境 # 或 containerd 环境 sudo crictl rm -f $(sudo crictl ps -q)

5. 清理镜像和运行时残留

sudo docker rmi -f $(sudo docker images -q) sudo docker system prune -a --volumes -f

6. 清理 Kubernetes 残留文件和挂载

常会遇到Device or resource busy错误,因为 secret/configmap 等卷以 tmpfs 方式挂载。

# 先卸载所有 kubelet 相关 tmpfs sudo mount | grep kubelet | awk '{print $3}' | xargs -r sudo umount # 再删除残留目录 sudo rm -rf /var/lib/kubelet/* /var/log/pods/* /var/log/containers/* # 重建必要空目录 sudo mkdir -p /var/lib/kubelet /var/log/pods /var/log/containers

7. 可选:进一步释放磁盘空间

  • 清理 snap 旧版本(Ubuntu 常见):
    sudo snap list --all | awk '/disabled/{print $1, $3}' | while read n r; do sudo snap remove "$n" --revision="$r" --purge; done
  • 清理系统日志:
    sudo journalctl --vacuum-size=500M

8. 维护完成后恢复节点

在目标节点上:

sudo systemctl start kubelet

等待节点恢复Ready状态后,在控制平面执行:

kubectl uncordon <node-name>

所有 DaemonSet Pod 会自动重建,节点恢复正常运行。

常见问题与解决方案

  • Pod 或容器反复重建→ 节点仍为 Ready 状态 → 必须停止 kubelet 让节点 NotReady
  • 删除 /var/lib/kubelet 时提示 busy→ 未卸载 tmpfs 挂载 → 先 umount 再删除
  • docker stop 无效→ kubelet 仍在拉起容器 → 彻底杀死 kubelet 进程

总结

这套流程的核心思想是:

  1. cordon 阻止调度
  2. 强制删除 Pod
  3. 停止 kubelet 让节点 NotReady(阻止重建)
  4. 彻底清理本地残留

执行完后,节点完全隔离且干净,可安全进行任何破坏性操作。恢复时仅需启动 kubelet 并 uncordon 即可自动愈合。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/22 18:07:03

Qwen3-VL图文理解任务测评:准确率与响应速度双重领先

Qwen3-VL图文理解任务测评&#xff1a;准确率与响应速度双重领先 在智能内容理解日益成为AI应用核心能力的今天&#xff0c;多模态大模型正从实验室快速走向真实业务场景。无论是电商平台需要自动识别商品图中的违规信息&#xff0c;还是医疗系统希望从影像报告中提取关键诊断结…

作者头像 李华
网站建设 2026/3/25 1:31:45

图解说明:如何正确完成Multisim元件库下载

手把手教你搞定Multisim元件库扩展&#xff1a;从下载到仿真无坑实践 你有没有遇到过这样的情况&#xff1f; 正在用 Multisim 画一个电源电路&#xff0c;想加个 TPS5430 降压芯片&#xff0c;结果在元件库里翻了半天——找不到&#xff01;默认库里的“Power Management”分…

作者头像 李华
网站建设 2026/4/23 12:52:05

5大开源合规陷阱:开发者必知的避坑指南

5大开源合规陷阱&#xff1a;开发者必知的避坑指南 【免费下载链接】chatlog 项目地址: https://gitcode.com/gh_mirrors/chat/chatlog 在当今快速发展的开源生态中&#xff0c;合规风险已成为开发者必须面对的现实挑战。从数据隐私法规到知识产权保护&#xff0c;开源…

作者头像 李华
网站建设 2026/4/23 13:04:13

BoringNotch终极体验:从零开始让MacBook凹口变身音乐控制中心

BoringNotch终极体验&#xff1a;从零开始让MacBook凹口变身音乐控制中心 【免费下载链接】boring.notch TheBoringNotch: Not so boring notch That Rocks &#x1f3b8;&#x1f3b6; 项目地址: https://gitcode.com/gh_mirrors/bor/boring.notch 还记得第一次看到Mac…

作者头像 李华
网站建设 2026/4/17 21:06:23

解决Keil5不支持51单片机问题:精准适配STC89C52方案

如何让Keil5完美支持STC89C52&#xff1f;一文打通51单片机开发全链路 你是不是也遇到过这种情况&#xff1a;兴冲冲打开Keil μVision5&#xff0c;想开始写第一个51单片机程序&#xff0c;结果新建工程时翻遍设备列表&#xff0c; 死活找不到STC89C52 &#xff1f;甚至搜索…

作者头像 李华
网站建设 2026/4/23 9:18:30

5分钟实现B站直播全自动录播:智能工具帮你轻松管理直播内容

5分钟实现B站直播全自动录播&#xff1a;智能工具帮你轻松管理直播内容 【免费下载链接】bilive 极快的B站直播录制、自动切片、自动渲染弹幕以及字幕并投稿至B站&#xff0c;兼容超低配置机器。 项目地址: https://gitcode.com/gh_mirrors/bi/bilive 还在为手动录制B站…

作者头像 李华