专场出品人:秦思思
中国信息通信研究院人工智能研究所高级工程师
主要研究方向为大模型工程化、智能化软件工程、软件智能化、企业智能化转型、MaaS等,牵头系列标准的编制、评测、咨询,以及产业研究等工作。担任AIIA智能化软件工程(AI4SE)工作组组长、人工智能应用服务商(AISP)工作组组长。
专场:Agentic Engineering评测与质量保障
本专场汇聚 Agentic Engineering 领域顶尖专家、企业技术负责人及科研学者,聚焦智能体评测与质量保障的核心痛点、技术突破与最佳实践。论坛将围绕多维度评测框架构建、LLM-as-Judge 评测范式应用、智能体轨迹评估与组件单测、成本可控与可靠性优化、安全边界划定与可观测性提升等关键话题,深入探讨适配企业级需求的评测标准与质量保障方案,分享行业前沿实践案例,帮助参与者破解技术落地中的共性难题,明确评测与质量管控的核心路径,探索适合自身业务的技术应用策略,推动 Agentic Engineering 朝着标准化、规范化、高质量的方向发展,助力产业实现从“技术探索”到“规模化落地”的跨越。
陈永健
AI系统鲁棒性评测挑战与实践
华为 GTS平台测试总工 TSE leader
华为运营商领域平台测试总工,6级专家,19年软件测开经验,目前主要负责华为运营商软件GDE-Next数智转型与AI云原生平台开发测试,长期专注测试技术发展,在AI系统评测、混沌工程(高可靠性测试)、生态兼容性测试、自动化测试、性能与仿真测试等领域有深入探索,支撑和保障全球300+运营商客户稳定运营。
议题背景:
尽管大模型对自然语言处理能力越来越强大,但在行业实际应用中,如网络智能运维等场景中,受限于不同用户输入语言指令的表达差异及可能输入偏差,AI系统实际表现往往无法让人100%满意,那么如何系统化评估AI系统的鲁棒性就成了产品上线是否成功的重要课题,什么是好的鲁棒性评测集设计?过度“扰动”和“扰动”不足,在哪“扰动”都会影响鲁棒性评价结果,如何把握好输入“扰动”是一个巨大挑战。

内容大纲:
1. AI产品能否成功离不开鲁棒性
    1.1 AI产品好的体验首先是鲁棒性
    1.2 评测鲁棒性面临的关键挑战
2. 华为NLP类AI系统鲁棒性评测探索
    2.1 NLP类AI系统鲁棒性评测痛点
    2.2 华为运营商领域对AI系统鲁棒性评测的理解
    2.3 NLP类AI系统鲁棒性评测解决方案
3. 智能问答\NL2SQL\代码生成等典型业务场景中实践效果
    3.1 智能问答场景鲁棒性评测实践效果和注意点
    3.2 NL2SQL场景鲁棒性评测实践效果和注意点
    3.3 代码生成场景鲁棒性评测实践效果和注意点

王晓纯
大前端智能覆盖率用例推荐及风险评估
快手 主站质量大前端&质效工具负责人
具备移动端测试自动化框架设计与实施能力,精通移动端录制回放(移动端Native、动态化)、精准测试、流量回放工具开发、SDK接口自动化测试与性能测试,熟悉敏捷开发流程、单元测试、代码覆盖率分析(如KCov)、代码规范(如统一代码风格)、白盒化测试、A/B测试、OnCall问题处理与知识库构建、工程化开发流程(提测、免测标准制定)以及大前端测试架构设计
议题背景:
大前端测试长期面临黑盒困局:用例质量受限于 PRD、技术串讲、代码变更三大信息源的天然缺陷,代码与用例之间存在难以弥合的沟壑。AI
时代为此提供了新的破局路径——借助 AI 对代码的深度理解能力,赋能黑盒测试,建立PRD、MR、测试用例三者之间的真实关联,让覆盖率从滞后指标变为可执行的行动指南。

内容大纲:
1. 项目由来 —— 大前端测试困局的根因是什么,三大信息源各有哪些致命缺陷,关键痛点在哪里
2. 项目思路与打法 —— 如何从代码-用例关联关系出发设计能力体系,平台解决了哪些核心问题,能做到什么程度
3. 智能体建设思考 —— 从单 Agent 到多 Agent 的演进路径,角色拆分、私域知识注入、提升输出稳定的建设逻辑
4. 落地效果 —— 在大型活动等关键项目中的业务收益
5. 踩坑与思考 —— 采纳率提升的过程中,智能体建设的关键爬坑经验与认知
6. 未来展望 —— 基于 SDD 范式的持续迭代,业务知识、质量知识、模型能力三维飞轮,还有哪些待解决的痛点

听众收益:
1. 大前端交付质效提升
2. 大前端测试覆盖率的极致应用

郝毅
代码智能体效果指标设计及工程围栏实践
华为云 CodeArts测试团队Leader 代码智能体质量工程专家
具有代码智能体质量保障体系设计与实施能力经验,精通 AI 辅助代码生成的效果评估、安全合规检测、自动化测试框架开发,熟悉代码覆盖率分析、白盒化测试、持续集成流水线设计以及智能体工程化部署流程。在代码智能体的指标体系构建、评测集建设、工程围栏实践等领域有丰富经验,致力于推动 AI 代码智能体从实验性工具向企业级工程化平台演进。
议题背景:
AI 代码智能体在落地过程中面临效果难以量化、工程化部署缺乏标准等挑战。传统软件测试方法难以直接迁移到智能体系统,代码生成质量、上下文理解能力、长期记忆稳定性等关键能力缺乏统一的度量标尺。亟需建立面向代码生成、理解、执行全链路的评价体系与工程化围栏机制,让智能体效果从主观感受变为可度量、可追踪、可改进的工程指标,赋能研发质效提升。

内容大纲:
1. 项目由来——代码智能体落地过程中的效果困局是什么,传统评测方法有哪些致命缺陷,关键痛点在哪里
2. 指标体系构建——面向代码开发场景,从准确率、安全合规、持续集成等维度构造多维度评价指标体系,针对代码智能体的关键模块(上下文管理、长期记忆、Loop 编排)构建自顶向下的指标模型
3. 评测集与评估实践——围绕上述度量方法,面向金融、电商、数据工程等领域构造评测集的方法和数据集最新评估结果
4. 工程围栏设计——从指标出发设计工程化能力体系,构建代码智能体的质量门禁、安全合规检查与持续集成围栏,平台解决了哪些核心问题
5. 落地效果——在代码生成、代码审查、自动化测试等关键场景中的业务收益与质效提升数据
6. 踩坑与思考——指标体系推广过程中,智能体效果工程化的关键爬坑经验与认知
7. 未来展望——基于持续迭代的智能体质效飞轮,指标体系、评测能力、模型优化三维协同,还有哪些待解决的痛点

听众收益:
1. 代码智能体多维度效果评估的体系化方法论
2. 面向金融、电商、数据工程等垂直领域的评测集建设思路
3. 代码智能体工程化部署与质量围栏的落地实践


SECon组委会是由业界多位资深技术专家发起,负责组织技术指导委员会,并和委员会的专家一起挖掘全球软件工程领域的创新技术,同时依托智盟创课国内领先的人才能力提升服务供应商,组织专业的会务服务团队,全面推进会议的顺利落地,保证参会者体验。
服务总线:400-183-9980
商务合作:151-2264-3988  木子  
票务联系:186-0005-0529  张老师
E-mail:speaker@qecon.com.cn
关注SECon公众号
添加SECon小助手,获取
会议最新资讯