混沌工程基本原理-深圳市維司達科技有限公司

文字版

2008年之前，国际巨型视频网站Netflix的模式还是自建机房，自己维护，由于在全球有超1亿用户，所以流量特别大。有一天服务宕机，导致部分国家的不可用长达1天时间，于是他们决定将服务器迁移到AWS上，做了多节点分布式部署，同时增加对服务可用性、容错性、健壮性的实验，而这套实验方法就是混沌工程的前身。他们将这种实验方法和工具抽象剥离出来后，命名为Choas Monkey，寓意为上蹿下跳捣乱的猴子（看来猴子这个物种无论海内海外，都认为他们喜欢捣乱，想想大闹天宫的大圣）。

经过几年的发展，这种思想被业界争相效仿，来提升自己公司的产品。而就在这个时候，2014年Netflix宣布新增一个叫混沌工程师的职位，代表Netflix将混沌工程融入了自己的运维过程，这也直接激起了混沌工程的热度。

2015年，Netflix与社区正式提出了混沌工程原则，从此Choas Monkey不再是一种工具、一组方法，而是真正形成了一套理论。

image

2、定义与作用

定义

混沌工程（Chaos Engineering）是一种通过主动向系统中注入故障或异常条件，以验证系统在真实环境中的韧性、发现潜在弱点，并提升系统容错能力的技术实践。它旨在将不可预测的故障转化为可控实验，帮助构建高可用的分布式系统。-- 来自Deepseek

混沌工程是一种通过主动在系统中引入可控的故障和不确定性，来测试和验证系统韧性的实践方法。

其核心目标是：在系统发生意外故障（如服务器宕机、网络延迟、数据丢失等）前，主动发现潜在的脆弱点，从而提升系统在真实复杂环境中的稳定性、可靠性和容错能力。

简单来说，就像给系统“打疫苗”，通过模拟各种可能的“疾病”（故障），让系统提前适应并增强抵御风险的能力，减少实际运行中突发故障造成的损失。 -- 来自豆包

作用

提前暴露潜在故障点，降低线上故障发生率与复发率

验证故障恢复机制有效性

构建系统自愈能力，提高故障应急效率

提高系统架构的容错能力与健壮性

经典案例

Netflix 的 Chaos Monkey：随机终止生产环境虚拟机，迫使服务实现自动化容错。

NASA航天系统：在阿波罗计划中通过“故障注入”测试飞船的生存能力。

银行系统演练：定期模拟数据中心宕机，验证异地多活的切换时效。

再来个图，直观了解某银行应用混沌工程的案例：

image

几个好理解的场景

服务器宕机：模拟某个服务器失效，观察系统是否能通过负载均衡快速恢复。

网络延时：模拟高延迟或丢包场景，评估用户体验是否受到影响。

流量激增：测试系统在突发流量下的响应能力，找到可能的性能瓶颈。

混动工程是一种主动发现问题的方式，而不是被动等待事故发生。就像 Netflix 最开始的Chaos Monkey工具（随机关闭生产环境中的服务，通过实践验证系统的健壮性）。

3、实施原则

Netflix首先提出的五大原则：

建立稳定状态的假设

当系统处于稳定状态时，可以通过一些指标来定义这一状态（如请求成功率、延迟百分位）。系统在混沌工程实验完成后，这些指标无法快速恢复，可以认为这个系统是不稳定的。

多样化真实事件

不能够凭空想像出一些事件来验证，而是引入那些真实存在的，频繁发生的，且影响重大的事件。给这些事件做混沌实验才有价值。如磁盘故障、网络延时、主机宕机等。

在生产环境中进行实验

尽量在生产或接近生产的环境中进行测试，生产环境的多样性是其它环境所不具备的。混沌工程的价值就是保证生产上的业务连续不中断。

持续运行自动化实验

实施混沌工程实验一般最开始是人工手动操作，当对业务有足够的信心时，要把混沌实验融入到持续集成过程。在版本升级、不断迭代的过程中，持续不断自动化地做验证，最大程度保证业务的连续性验证。

最小化影响范围

做混沌工程的意义就是保证生产上的业务，在实施混沌实验时也必须保证对线上业务影响最小。在实施实验时，从小范围开始，不断扩大范围，避开高风险时段，如选择业务量最小的时段实施实验。

image

4、主流工具

Chaos Monkey （开源）/ˈkeɪɒs/

特点：由 Netflix 开发，用于随机终止生产环境中的服务实例，测试系统的恢复能力。

优势：简单易用，能够快速暴露系统中的单点故障。

适用场景：适合已经具备一定弹性和容错能力的大型分布式系统。

ChaosBlade （开源）

特点：阿里巴巴开源，支持多种故障注入场景，包括CPU、内存、网络、磁盘、进程、文件系统等。

优势：多环境支持（物理机、虚拟机、容器等），灵活的实验场景，轻量级且易于集成。

适用场景：适合混合云或复杂基础设施的企业。

Chaos Mesh（开源）

特点：PingCAP 开源，专注于K8S环境的混沌工程工具，支持 Pod 故障、网络故障、文件系统故障等20+实验类型，提供Chaos Dashboard管理界面。

优势：深度集成K8S，支持基于标签的精准故障注入。

适用场景：适合基于K8S的云原生系统，尤其是微服务架构和分布式数据库。

LitmusChaos （开源） /ˈlɪtməs/

特点：MayaData 开源，基于K8S的开源工具，专注于云原生环境下的韧性测试。

优势：与K8S生态紧密集成，能够针对容器、Pod、节点等不同层次进行故障模拟。

适用场景：适合云原生环境下的系统，尤其是基于K8S构建的微服务架构。

ChaosMeta （开源）/ˈmɛtə/

特点：专注于大规模分布式系统的故障注入和韧性测试，支持节点故障、网络分区、服务延迟等。

优势：支持实验编排和复杂故障链模拟，适合超大规模系统。

适用场景：适合需要测试大规模分布式系统韧性的企业，如大型互联网公司或金融科技公司。

Gremlin （商业） /ˈɡremlɪn/

特点：企业级混沌工程平台，支持100+故障场景（CPU满载、网络延迟、磁盘故障等），集成Prometheus等监控工具，具备可视化仪表盘和可靠性评分。

优势：提供更细粒度的故障模拟，能够模拟复杂的故障场景，并且有良好的用户界面和报告功能。

适用场景：适合需要精细控制实验的企业，尤其是对系统稳定性要求极高的行业，如金融、医疗等。

工具名称开发团队核心特点适用场景是否开源活跃度排序

Chaos Monkey Netflix 随机终止服务，简单易用大型分布式系统是 /

ChaosBlade 阿里巴巴多环境支持，灵活的实验场景，轻量级混合云、复杂基础设施是 2

Chaos Mesh PingCAP Kubernetes 深度集成，丰富的故障类型，可视化界面云原生、微服务架构是 1

LitmusChaos MayaData 擅长 ‌K8s 原生资源‌（如 Pod/Node 级故障）的标准化实验云原生、基于K8S环境的架构是 3

ChaosMeta 蚂蚁集团 2024年1月进入CNCF，大规模支持，实验编排，开放的 API 和插件机制覆盖传统云原生架构及新兴AI基础设施（如GPU集群、大模型训练）超大规模分布式系统是 4

Gremlin Gremlin Inc. 企业级平台，细粒度故障模拟，丰富的用户界面企业级应用，高稳定性要求行业商业 /

5、工具使用

ChaosBlade

官网: https://chaosblade.io/

Github: https://github.com/chaosblade-io/chaosblade

image

Chaosblade支持的试验场景：

image

操作手册：

https://chaosblade-io.gitbook.io/chaosblade-help-zh-cn/blade-create-disk-burn

磁盘读写实验

image

代码实现

最小单元是一个for循环：

image

Chaos Mesh

官网：https://chaos-mesh.org

Github：https://github.com/pingcap/chaos-mesh

image

官网直观展示的能力：

可视化操作界面（Chaos Dashboard）：可以通过 Web UI 设计混沌实验场景、编排故障注入流程，并实时监控实验运行状态，降低混沌工程实施门槛。

文档与社区资源：包含详细的使用指南、故障类型说明及社区支持信息，便于用户快速上手和实践。

集成 DevOps 工具链：支持与 GitHub Actions 等 CI/CD 系统集成，实现持续混沌测试。

Chaos Mesh 是 CNCF 的托管项目：

image

文档

Chaos Mesh 简介：

image

支持故障类型：

image

支持容器和物理机：

image

模拟Pod故障：

image

使用Chaos Dashboard方式创建Pod故障实验：

image

通过Kubectl方式创建Pod故障实验：

image

Yaml文件中的字段：

image

混沌工程基本原理

图像增强与滤波

如何快速搭建SSL安全扫描系统实现自动化测试？

洞察金融科技测试面试：核心能力与趋势解析

Milkdown编辑器终极指南：如何选择最适合你的Markdown解决方案

Gaea Editor 问题解决指南：从零开始掌握网页设计工具

机场安检危险物品检测与分类_VFNet模型实现与性能优化