AI驱动的大前端智能排障:从白屏归因到全域自愈的探索
快手Web容器前端负责人,先后就职于腾讯、快手等公司。目前在快手,作为AI智能排障的项目负责人,主导了大前端智能诊断与归因平台从0到1的建设工作,对大前端稳定性建设、智能运维体系及AI在复杂工程场景中的落地应用有深刻的理解与丰富的实战经验。
在大前端架构日趋复杂、跨端链路深度融合的当下,线上故障排查已从传统的“单点调试”演变为“跨端、跨栈、跨团队”的系统性工程。随着移动互联网进入存量竞争时代,用户体验的精细化管理与研发运维的效率提升,已成为驱动业务增长的核心竞争力。然而,面对白屏、容器异常、资源加载失败等高频且根因复杂的故障场景,传统依赖人工经验、多平台切换的排障模式,在响应速度、排查成本和经验复用上面临着严峻挑战。
本次分享将以「快手AI 智能排障」的建设实践为核心,系统性地讲述如何结合大模型(LLM)、智能体(Agentic)、知识图谱与多源日志分析等技术,构建具备“上下文感知、概率化归因、跨栈关联、闭环处置”的智能运维体系。重塑快手大前端的故障处理流程,将传统“被动响应、专家依赖”的排障模式,升级为“主动式、平台化、自愈化”的智能运维体系。
内容大纲
1. 大前端排障的“危”与“机”
1.1 背景:从“单点调试”到“系统工程”的演变
1.2 行业洞察:智能排障的现状与趋势
1.3 业务现状和痛点
2. 产品演示:大前端智能排障新范式
2.1 演示和产品介绍
3. 构建智能排障新范式
3.1 目标与愿景
3.2 架构设计
3.3 核心技术实现
4. 展望:智能排障的下一站
4.1 能力拓展:从点到面的“横向”扩展
4.2 未来图景:主动预防与“自愈”的“纵向”深化
听众受益
1. 了解快手大前端智能排障平台的架构设计。
2. 学习AI Agent与知识图谱在运维中的实际应用。
3. 获得AI赋能复杂工程问题的思路启发。