华为云 CodeArts测试团队Leader 代码智能体质量工程专家
具有代码智能体质量保障体系设计与实施能力经验,精通 AI 辅助代码生成的效果评估、安全合规检测、自动化测试框架开发,熟悉代码覆盖率分析、白盒化测试、持续集成流水线设计以及智能体工程化部署流程。在代码智能体的指标体系构建、评测集建设、工程围栏实践等领域有丰富经验,致力于推动 AI 代码智能体从实验性工具向企业级工程化平台演进。
议题背景:
AI 代码智能体在落地过程中面临效果难以量化、工程化部署缺乏标准等挑战。传统软件测试方法难以直接迁移到智能体系统,代码生成质量、上下文理解能力、长期记忆稳定性等关键能力缺乏统一的度量标尺。亟需建立面向代码生成、理解、执行全链路的评价体系与工程化围栏机制,让智能体效果从主观感受变为可度量、可追踪、可改进的工程指标,赋能研发质效提升。
内容大纲:
1. 项目由来——代码智能体落地过程中的效果困局是什么,传统评测方法有哪些致命缺陷,关键痛点在哪里
2. 指标体系构建——面向代码开发场景,从准确率、安全合规、持续集成等维度构造多维度评价指标体系,针对代码智能体的关键模块(上下文管理、长期记忆、Loop 编排)构建自顶向下的指标模型
3. 评测集与评估实践——围绕上述度量方法,面向金融、电商、数据工程等领域构造评测集的方法和数据集最新评估结果
4. 工程围栏设计——从指标出发设计工程化能力体系,构建代码智能体的质量门禁、安全合规检查与持续集成围栏,平台解决了哪些核心问题
5. 落地效果——在代码生成、代码审查、自动化测试等关键场景中的业务收益与质效提升数据
6. 踩坑与思考——指标体系推广过程中,智能体效果工程化的关键爬坑经验与认知
7. 未来展望——基于持续迭代的智能体质效飞轮,指标体系、评测能力、模型优化三维协同,还有哪些待解决的痛点
听众收益:
1. 代码智能体多维度效果评估的体系化方法论
2. 面向金融、电商、数据工程等垂直领域的评测集建设思路
3. 代码智能体工程化部署与质量围栏的落地实践