在云原生时代,分布式服务间的依赖日益复杂,很难评估单个服务故障对整个系统的影响,并且请求链路长,监控告警的不完善导致发现问题、定位问题难度增大,同时业务和技术迭代快,如何持续保障系统的稳定性和高可用性受到很大的挑战。本次演讲将探讨混沌工程和拨压测工具在保障站点稳定性方面的最佳实践。我们将介绍站点稳定性的挑战和需求,并分享如何通过混沌工程和拨压测工具来解决这些挑战。
1. 站点稳定性的挑战和需求
1.1 如何实时评估线上各业务的可用性
1.2 如何准确评估线上系统容量
1.3 不同容量水位下,如何衡量系统的容灾容错能力
2. 站点稳定性工具
2.1 拨测:对线上用户体验、业务稳定性性持续测试
2.2 压测:验证在多种流量状态下,系统的稳定性
2.3 拨压测一体化工具:同一套脚本,实现系统上线前的多轮负载测试、稳定性测试,以及上线后的可用性测试
2.4 混沌工程实验工具:在可控范围或环境下,通过故障注入,来持续提升系统的稳定性和高可用能力
3. 混沌工程与拨压测结合最佳实践
3.1 面向日常流量下的故障演练
3.2 面向峰值流量下的故障演练
3.3 如何使用拨测评估业务维度的故障爆炸半径 四、总结与展望
1. 了解如何通过拨测工具实现站点可用性监控
2. 了解站点容量规划和验证体系
3. 了解拨压测工具与混沌工程结合的业务场景和最佳实践
阿里云性能测试产品(PTS)和云拨测产品负责人,具有丰富的稳定性治理、大规模压测护航经验,曾支撑过多次千万级QPS的压测活动,擅长容量规划、稳定性体系建设。曾参与编写《阿里云卓越架构白皮书》。