Agentic_Engineering评测与质量保障-2026上海_SECon全球软件工程技术大会-橙柚科技

专场出品人：秦思思

中国信息通信研究院人工智能研究所高级工程师

主要研究方向为大模型工程化、智能化软件工程、软件智能化、企业智能化转型、MaaS等，牵头系列标准的编制、评测、咨询，以及产业研究等工作。担任AIIA智能化软件工程（AI4SE）工作组组长、人工智能应用服务商（AISP）工作组组长。

专场：Agentic Engineering评测与质量保障

本专场汇聚 Agentic Engineering 领域顶尖专家、企业技术负责人及科研学者，聚焦智能体评测与质量保障的核心痛点、技术突破与最佳实践。论坛将围绕多维度评测框架构建、LLM-as-Judge 评测范式应用、智能体轨迹评估与组件单测、成本可控与可靠性优化、安全边界划定与可观测性提升等关键话题，深入探讨适配企业级需求的评测标准与质量保障方案，分享行业前沿实践案例，帮助参与者破解技术落地中的共性难题，明确评测与质量管控的核心路径，探索适合自身业务的技术应用策略，推动 Agentic Engineering 朝着标准化、规范化、高质量的方向发展，助力产业实现从“技术探索”到“规模化落地”的跨越。

尚瑞琪

面向安全大模型的工业化评测体系：从经验依赖到AI驱动的范式演进

蚂蚁集团资金风控质量技术专家

毕业于美国加州大学洛杉矶分校(UCLA)，校招入职蚂蚁集团大安全技术部门，长期从事资金风控质量保障建设，从 0 到 1 建设资金风控大模型评测方法论，目前仍主要负责风控智能化项目，并探索评测 AI 流的落地实践，推动整体安全风控评测向 AI 驱动的智能化演进。

议题介绍：
本次分享我们为大模型在安全领域（如内容风控、金融反诈、身份核身等）面临的评测困境，提出一套数据“评估工程一体化”的工业化评测框架，通过构建Raw Data原始存储底座实现异构数据的标准化管理与跨域复用，将样本资产管理升级为可演进的知识库，实现自动化评估与精准归因，最终驱动“评测—诊断—优化”闭环。将评测周期从“数周”大幅压缩至“数小时”，实现从经验依赖到数据驱动的范式跃迁

内容大纲：
1. 安全领域大模型评测的深层困境
1.1 标准之困：安全风险缺乏客观基准，专家主观分歧导致评估标准漂移
1.2 资产之困：样本建设依赖经验直觉，覆盖盲区难以量化识别且异构业务数据形态差异显著，统一描述与治理困难
1.3 工程之困：规模化执行压力大，通用评测架构落地受阻
2. 破局：AI驱动的工业化评测框架
2.1 范式跃迁目标：从"人评人治"到"算法自治"的四个可——可描述、可复用、可度量、可优化
2.2 四层AI化架构：Raw Data底座 → 手法-样本知识库 → Judge Model中枢 → 自迭代闭环
2.3 统一数据协议：百万级异构样本的AI标准化治理，破解"无法描述即无法评测"
2.4 效能跃迁：AI驱动评测时效从14天压缩至4小时
3. 资产层：AI式手法挖掘-样本结构化知识库
3.1 黑产手法深度挖掘：攻击模式抽取与结构化建模
3.2 "手法-样本"索引构建：智能索引与双向关联
3.3 自迭代机制：基于模型弱点与业务反馈自动扩充评测边界
3.4 核心突破：样本资产从"专家经验"到"AI自演进知识库"
4. 评估层：Judge Model客观评估中枢与多维评估手段
4.1 人工标尺的局限：主观分歧、标准漂移、不可复现
4.2 Judge Model架构：安全领域专用评估大模型的设计与校准
4.3 多维度评测手段融合：准确性/鲁棒性/增益性的可度量
4.4 核心突破：以AI算法共识替代人工标尺，终结标准漂移
5. 工程层：AI化评测-归因-自迭代闭环
5.1 穿透评分表象：模型薄弱点定位与训练数据缺口识别
5.2 "评测-诊断-优化"正反馈：从评分到根因到策略到验证的自动化链路
5.3 规模化执行：流程自动化、资源弹性调度、结果智能分析
5.4 时效拆解：14天→4小时的关键工程优化（任务并行、增量评测、热点缓存）
5.5 核心突破：数据驱动的持续优化替代经验驱动的单次评测
6. 实践验证：资金风控场景的工业化落地
6.1 场景特征：资金欺诈手法多变、时效性强、损失不可逆
6.2 落地路径：在资金风控场景的适配与部署
6.3 关键指标：评测时效、覆盖度提升、误报/漏报收敛效果
6.4 效能对比：传统模式 vs 一体化框架的量化收益分析
7. 范式跃迁与未来演进
7.1 从静态评测到动态对抗：实时感知黑产手法变化的智能评测
7.2 从评测工具到评测智能体：自主决策、自我进化的评测系统
7.3 行业生态共建：开放评测标准，推动安全大模型基线提升

敬请期待

......

SECon组委会是由业界多位资深技术专家发起，负责组织技术指导委员会，并和委员会的专家一起挖掘全球软件工程领域的创新技术，同时依托智盟创课国内领先的人才能力提升服务供应商，组织专业的会务服务团队，全面推进会议的顺利落地，保证参会者体验。

服务总线：400-183-9980

商务合作：151-2264-3988 木子

票务联系：186-0005-0529 张老师

E-mail：speaker@secon.com.cn

关注SECon公众号

添加SECon小助手，获取

会议最新资讯

免费领取大会两天PPT

点击领取

津ICP备2023002500号