互联网服务可靠性混沌工程

混沌工程如何控制爆炸半径减小实施风险的思路探讨?

实施混沌工程很重要的一点,如何控制爆炸半径,减小实施风险。目前的思路是如果是物理化或者虚拟机部署环境依靠Cgroup和Namespace来实现的。cpu和内存资源是使用Cgroup来控制,PID、IPC、网络等资源是通过Namespace来划分。利用Cgoup和Namespace来构造场景完成一些异常测试,如...显示全部

实施混沌工程很重要的一点,如何控制爆炸半径,减小实施风险。
目前的思路是如果是物理化或者虚拟机部署环境依靠Cgroup和Namespace来实现的。
cpu和内存资源是使用Cgroup来控制,PID、IPC、网络等资源是通过Namespace来划分。利用Cgoup和Namespace来构造场景完成一些异常测试,
如利用Cgroup的资源控制功能做资源满载的测试;利用Namespace的资源隔离特性做一些网络异常测试而不影响其他程序的运行。
如果k8s或者容器化部署环境;就依靠容器自身资源隔离,控制爆炸半径
但是感觉目前这个粒度还是太粗了;不知道业界还有没有一些更好实施思路。

收起
参与3

返回ht025的回答

ht025ht025其它ht

我们这边一般都是单台服务器只部署一个服务,搭配完善CMDB和调用链以及应用依赖的环境,基本上都能估算出大致的爆炸半径,即使爆炸半径超出舆情,我们有故障自愈功能,迅速回复正常。

证券 · 2021-07-23
浏览973

回答者

ht025
其它ht
擅长领域: 数据库云计算服务器

ht025 最近回答过的问题

回答状态

  • 发布时间:2021-07-23
  • 关注会员:2 人
  • 回答浏览:973
  • X社区推广