2022年加入快手,负责快手基础平台操作系统团队,具有十五年操作系统内核研发经验。带领团队完成大规模CPU混部、GPU虚拟化、CentOS替换演进、内存优化、等多个重大专项,通过极致的底层技术创新,帮助公司获得每年十亿级的成本降低。
快手的混部发展历程,分成两个阶段:
阶段一,从22到24年,帮助内部公共集群CPU利用率提升2倍+,达到行业的利用率天花板深水区。
阶段二,从24年至今,我们对内核隔离技术、观测和诊断系统的升级,攻坚(搜广推)极度敏感业务进行规模混部,该类作业由于延时极度敏感,相关混部干扰的控制一直是行业难题。本次分享将介绍快手在全场景混部过程中,如何通过相关隔离技术解决过程中的挑战。
内容大纲
1. 快手混部发展历程
1.1 公共资源池从低水区进入深水区
1.2 攻克行业搜广推混部难题
2. 核心技术揭秘
2.1 观测技术
2.2 诊断技术
2.3 内核隔离技术
3. 下一步技术发展
3.1 智能化
3.2 高密场景