2011年加入阿里巴巴,主导高可用架构的多项技术的规划、演进和规模化实践落地,双十一大促保障负责人,积累了丰富的架构和稳定性经验。
专题出品人:周洋
阿里云 应用可观测和高可用架构负责人 混沌布道师
专题:数字化免疫系统
Gartner公布了2023年十大战略技术趋势,其中:数字免疫系统(Digital Immune System,DIS)定位为结合了可观察性、AI增强测试、混沌工程、自修复、站点可靠性工程和软件供应链安全等实践和技术的参考标准,用以提高产品、服务和系统的弹性,同时降低业务风险。本专场希望各位讲师可以一起探讨数字化免疫系统的的落地场景、工程架构和实践案例,帮助更多企业降低引入和落地该项技术的成本。
张皓 
蚂蚁集团混沌工程技术理论与实践
本次演讲主要分享蚂蚁集团混沌工程领域核心技术的演进与风险经验的沉淀。我们将介绍核心技术产品以及云原生实践,探讨混沌工程的演进方向;此外,我们还将站在混沌工程的视角对技术风险进行分类,以风险目录的形式进行描述,这对企业实施混沌工程具有很好的指导作用。
1. 简单引入,混沌工程是做什么的、对稳定性的价值,行业发展背景以及国内外发展阶段。
2. 蚂蚁集团混沌工程的组织实施形式、实践落地规模、产出价值、沉淀的可借鉴经验等。
    a. 蚂蚁集团的落地形式:常态攻防演练+公司级集中大规模攻防演练、红蓝军人员组织安排、运营设计比如排名制奖惩制度等;
    b. 混沌工程实践带来的风险挖掘数据成果;
    c. 蚂蚁集团混沌工程的打法介绍:理论指导(风险目录)+技术支撑(ChaosMeta)。
3. 风险目录是什么?是蚂蚁集团在技术风险领域多年积累的方法论。
    a. 风险目录有哪些大的模块分类:比如云原生、中间件、机房容灾、数据库、微服务、数据风险、端风险等;
    b. 举一些普通关注的领域的例子:中间件、Kubernetes、Java业务应用。
4. ChaosMeta是什么?核心的产品能力+故障注入能力+强调特色能力
    a. 产品能力-云原生注入架构的特点;
    b. 故障注入能力-云原生领域注入能力的特点;
    c. 怎么和风险目录结合?演进路线RoadMap:人工设计与配置=》自动化一键体检=》AI智能化;
    d. ChaosMeta开源社区的分享与介绍。
1. 蚂蚁集团在混沌工程领域的人员组织形式、运营运作方案给了企业落地混沌工程很好的参考价值;
2. ChaosMeta+风险目录结合的可落地技术方案给了企业实施混沌工程很好的参考价值;
3. 分享蚂蚁集团混沌工程的未来演进方向,如何为业务稳定性带来更大的价值,给企业带来评估混沌工程投入的参考。

内容大纲
听众收益
2011年毕业加入淘宝,从事JAVA中间件研发工作,2014年加入蚂蚁,2017年开始进入混沌工程领域,为蚂蚁技术蓝军团队初创成员,目前为蚂蚁混沌工程业务负责人,对混沌工程领域的业务,技术,运营,组织建设等都有丰富的经验。
蚂蚁集团 高级技术专家
吴垚
混沌工程与拨压测工具保障站点稳定性最佳实践
在云原生时代,分布式服务间的依赖日益复杂,很难评估单个服务故障对整个系统的影响,并且请求链路长,监控告警的不完善导致发现问题、定位问题难度增大,同时业务和技术迭代快,如何持续保障系统的稳定性和高可用性受到很大的挑战。本次演讲将探讨混沌工程和拨压测工具在保障站点稳定性方面的最佳实践。我们将介绍站点稳定性的挑战和需求,并分享如何通过混沌工程和拨压测工具来解决这些挑战。
1. 站点稳定性的挑战和需求 
    1.1 如何实时评估线上各业务的可用性 
    1.2 如何准确评估线上系统容量 
    1.3 不同容量水位下,如何衡量系统的容灾容错能力 
2. 站点稳定性工具 
    2.1 拨测:对线上用户体验、业务稳定性性持续测试 
    2.2 压测:验证在多种流量状态下,系统的稳定性 
    2.3 拨压测一体化工具:同一套脚本,实现系统上线前的多轮负载测试、稳定性测试,以及上线后的可用性测试 
    2.4 混沌工程实验工具:在可控范围或环境下,通过故障注入,来持续提升系统的稳定性和高可用能力
3. 混沌工程与拨压测结合最佳实践
    3.1 面向日常流量下的故障演练 
    3.2 面向峰值流量下的故障演练 
    3.3 如何使用拨测评估业务维度的故障爆炸半径 四、总结与展望

1. 了解如何通过拨测工具实现站点可用性监控 
2. 了解站点容量规划和验证体系 
3. 了解拨压测工具与混沌工程结合的业务场景和最佳实践
内容大纲
听众收益
阿里云性能测试产品(PTS)和云拨测产品负责人,具有丰富的稳定性治理、大规模压测护航经验,曾支撑过多次千万级QPS的压测活动,擅长容量规划、稳定性体系建设。曾参与编写《阿里云卓越架构白皮书》。
阿里云 高级研发工程师
华明
面向服务故障处理过程的可观测性产品实践
随着云原生和微服务的发展,数字化服务的架构发生了变化,服务迭代变得越来越快,服务关联越来越复杂,面对这样的变化,传统的监控系统已经难以胜任数字化服务的稳定性保障要求。
当前阶段的数字化服务稳定性保障有何特点和难点呢?本主题将详细拆解数字化服务的稳定性保障模型,并分析其中的挑战,结合实践介绍一种面向数字化服务稳定性保障场景的可观测性产品设计思路以及应用实践。
1. 可观测性的历史和现状
2. 数字化服务稳定性保障的问题和挑战
3. 数字化服务稳定性保障场景分析
4. 面向服务稳定性保障的可观测性产品设计思路
5. 服务稳定性保障中可观测性产品使用案例
6. 总结和展望

1. 了解可观测性的历史、现状和全貌
2. 了解数字化服务稳定性保障的体系
3. 了解面向服务稳定性保障体系建设的可观测性产品有何特殊之处  

内容大纲
听众收益
10年+互联网基础技术从业经历,是国内运维和稳定性保障经验最为丰富的专家之一。
2009年加入百度,先后负责百度广告系统、糯米团购等大型业务线的SRE运维工作。
2016年加入滴滴,做为稳定性技术负责人,协同技术部门保障全平台出行服务的稳定性。同时带领运维平台研发团队,完成了滴滴运维体系的建设和云原生容器平台的建设,使滴滴成为国内推进服务容器化最快的几家公司之一。
2021年10月联合创立北京快猫星云科技有限公司,致力于在云原生时代为数字化企业提供优秀的监控产品和可观测性解决方案。
2022年10月加入TGO鲲鹏会。
快猫星云 联合创始人&产品技术负责人
SECon组委会是由业界多位资深技术专家发起,负责组织技术指导委员会,并和委员会的专家一起挖掘全球软件工程领域的创新技术,同时依托智盟创课国内领先的人才能力提升服务供应商,组织专业的会务服务团队,全面推进会议的顺利落地,保证参会者体验。
商务合作:木子  15122643988
票务联系:丽媛  18600050529
E-mail:speaker@secon.com.cn 
关注SECon公众号
添加SECon小助手,获取
会议最新资讯