随着企业数字化的发展,分布式微服务架构正在越来越多地被应用到企业系统中。使得基础设施相比传统架构更为复杂、系统的运行态存在着不确定性,这给业务稳定带来了巨大的挑战。

近日,国内国家级高新技术企业和信创工委会成员单位同创永益发布了混沌工程平台,利用混沌工程平台的故障注入能力,可进行实验场景分层实施与故障分层覆盖。通过对实验环境的基础设施、平台、中间件、业务系统、监控运维体系进行故障注入,模拟在生产环境下的异常场景,发现诸多的关键性问题,并自动记录实验数据用于实验总结,形成全方位的系统稳定性改善方案,从而为灾备方案、应急预案的适用性、可用性和稳定性夯实了基础,帮助企业发现并解决更多未知的影响业务稳定性的隐患与问题。

那么,针对于不同企业的需求,同创永益混沌工程平台有哪些主要适用场景呢?

场景一:基础资源实验

混沌工程应用于基础资源主要是针对基础设施的冗余性,以及提升基础设施的快速恢复能力。通过对主机注入CPU高负载、网络异常、宕机、内存占用等故障,并关联稳态指标,验证基础设施对业务的影响,并进行优化改进。

场景二:平台实验

通过模拟平台级别的故障,比如节点宕机、网络异常、内存满载、磁盘I/O压力等,观测集群服务的可用性,对业务系统有无影响。验证集群的自愈能力、高可用能力、资源配置合理性以及监控告警的有效性。

 业务稳定性验证

当不可预知某一个硬件的各类硬件故障如节点宕机、网络故障导致平台某个服务不可用,可以通过注入节点宕机,重启,Drain故障来验证节点上的Pod是否能被正常调度,应用的副本配置合理,应用的RT(响应时间)等无影响。

 业务高可用性验证

Pod 因为各种故障,如OOM,无法提供服务,可以通过注入删除Pod,容器故障来验证节点上的Pod是否能被正常调度,容器能否正常重启,应用的副本配置合理,应用的RT(响应时间)等无影响。

 业务服务能力

根据业务需求定义弹性伸缩策略,可以节约资源和人力运维成本,但是策略本身的合理性,如阈值,副本数,也需要充分的验证。通过注入Pod CPU,内存负载,触发Pod水平自动伸缩,来验证HPA配置是否合理,Pod水平伸缩是否正常执行。

场景三:应用微服务实验

通过模拟调用延迟、服务不可用、机器资源满载、注入流量等,验证微服务的容错能力。

 微服务熔断降级实验

由于调用关系的复杂性,如果调用链路中的某个资源不稳定,最终会导致请求发生堆积。熔断降级会在调用链路中某个资源出现不稳定状态时(例如调用超时或异常比例升高),对这个资源的调用进行限制,让请求快速失败,避免影响到其它的资源而导致级联错误。通过注入网络延迟/网络丢包/CPU满载/内存负载故障,来验证服务熔断降级的有效性,系统主体业务的稳定性。

 微服务流量控制实验

瞬时的流量高峰可能冲垮应用,平台可模拟注入入口流量,内部流量,检验流量塑形是否有效保障应用的高可用性。

 微服务强弱依赖实验

微服务强弱依赖对于架构设计和线上运维非常重要,企业缺少工程化跟踪方式,持续成本高。通过科学的手段持续稳定地得到应用间依赖关系、流量、强弱等数据,提前发现因为依赖问题可能导致的故障,避免依赖故障影响用户体验,积累数据持续推进系统稳定性提升。

场景四:验证监控的发现能力及告警系统的有效性

通过混沌工程验证监控能力,协助实现系统监控全面、快速、准确的目标。

 验证全面性

通过对业务系统注入故障,验证监控的发现能力,以及监控范围覆盖是否全面。

 验证时效性

通过对业务系统注入故障,验证系统故障和性能瓶颈是否实时监控获取,告警是否及时有效的发送,接收人是否及时有效的接受。

 验证准确性和有效性

通过对业务系统注入故障,验证监控指标是否准确无误, 告警值的设置是否合理吉事件的描述和发送是否准确。

场景五:验证应急预案及灾备切换方案的适用性和可用性

通过模拟基础设施故障导致的整个可用区故障,观察灾备切换是否正常执行,自动及手工容灾切换是否正常,应急预案是否有缺失、是否可用、是否适用,并通过实验总结报告进行优化整改,以充分保障灾备方案和应急预案的适用性和可用性。

场景六:混沌工程信创稳定性测试

以业务连续性管理为理论依据,以混沌工程为最佳实践,对于企业面临的信创和开源治理两大领域提供全面支撑:弥补传统测试所不涉及的场景,提升金融行业信创环境的稳定性,如:

 通过模拟设备级的故障,验证信创产品自愈能力。

 通过注入服务器,操作系统的故障,验证国产服务器,国产操作系统等与常用平台,如Kubernetes的兼容性。

 针对混合环境(信创和非信创设备),通过模拟各类型产品的故障来测试整体环境的稳定性。

对信创基础设施和基础软件通过混沌工程进行:兼容性,稳定性,可靠性验证;对于引入信创产品后的系统风险,通过混沌实验和故障场景库,进行自动化的、可重复性、可观测的规模化测试。采用业务连续性管理方法论识别系统脆弱点,进行持续优化。实现面向信创的业务连续性、灾难恢复的产品及服务的全线支持,从理论到实践落地。

在社会全面数字化转型的趋势下,业务连续性管理的数字化、系统化已成为必然趋势。而目前的传统的业务连续性解决方案急需找到新的突破口,通过混沌工程等新技术的应用,势必突破目前业务连续性管理的局限性。同创永益混沌平台,提供了丰富的故障注入手段,通过对业务系统进行故障注入实验,可帮助企业验证系统稳定性,发现系统或应用的薄弱点,助力企业数字化转型。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党