20年初加入快手,快手容器混部技术专家,负责公司内部在离线混部生态建设,致力于通过在离线混部技术,在保障服务稳定性的前提下,充分利用物理机器资源,实现CPU、GPU资源利用率提升,助力公司降本增效。硕士毕业后就职于百度INF,8+年的云原生落地实践经验。
降本增效利器:快手 CPU&GPU 超大规模在离线混部落地实践
随着快手业务不断发展,服务器数量不断攀升,IT基础设施成本与资源利用率不高的的问题日益严峻,同时给公司带来了成本、收益多方面挑战。
在离线混部作为降本增效的一大利器,充分挖掘机器资源提升资源供给的同时提升利用率,快手厂内针对不同痛点制定针对性的措施:CPU&GPU混部、潮汐混部、套餐标准化等,实现公司级的降本增效。本分享侧重介绍在快手落地的CPU & GPU在离线混部场景的最佳实践。
内容大纲
1. 资源利用率现状及痛点
2. 在离线混部建设历程及挑战
3. 利用率提升最佳实践CPU混部篇
4. 利用率提升最佳实践GPU混部篇
5. 未来演进规划与展望
听众收益
1. 了解在离线混部多方位解决方案
2. 了解CPU、GPU场景下在离线隔离方案
3. 了解快手在离线混部系统落地实践