专场出品人:秦思思
中国信息通信研究院人工智能研究所高级工程师
主要研究方向为大模型工程化、智能化软件工程、软件智能化、企业智能化转型、MaaS等,牵头系列标准的编制、评测、咨询,以及产业研究等工作。担任AIIA智能化软件工程(AI4SE)工作组组长、人工智能应用服务商(AISP)工作组组长。
专场:Agentic Engineering评测与质量保障
本专场汇聚 Agentic Engineering 领域顶尖专家、企业技术负责人及科研学者,聚焦智能体评测与质量保障的核心痛点、技术突破与最佳实践。论坛将围绕多维度评测框架构建、LLM-as-Judge 评测范式应用、智能体轨迹评估与组件单测、成本可控与可靠性优化、安全边界划定与可观测性提升等关键话题,深入探讨适配企业级需求的评测标准与质量保障方案,分享行业前沿实践案例,帮助参与者破解技术落地中的共性难题,明确评测与质量管控的核心路径,探索适合自身业务的技术应用策略,推动 Agentic Engineering 朝着标准化、规范化、高质量的方向发展,助力产业实现从“技术探索”到“规模化落地”的跨越。
尚瑞琪
面向安全大模型的工业化评测体系:从经验依赖到AI驱动的范式演进
蚂蚁集团 资金风控质量技术专家
毕业于美国加州大学洛杉矶分校(UCLA),校招入职蚂蚁集团大安全技术部门,长期从事资金风控质量保障建设,从 0 到 1 建设资金风控大模型评测方法论,目前仍主要负责风控智能化项目,并探索评测 AI 流的落地实践,推动整体安全风控评测向 AI 驱动的智能化演进。

议题介绍:
本次分享我们为大模型在安全领域(如内容风控、金融反诈、身份核身等)面临的评测困境,提出一套数据“评估工程一体化”的工业化评测框架,通过构建Raw Data原始存储底座实现异构数据的标准化管理与跨域复用,将样本资产管理升级为可演进的知识库,实现自动化评估与精准归因,最终驱动“评测—诊断—优化”闭环。将评测周期从“数周”大幅压缩至“数小时”,实现从经验依赖到数据驱动的范式跃迁

内容大纲:
1. 安全领域大模型评测的深层困境
    1.1 标准之困:安全风险缺乏客观基准,专家主观分歧导致评估标准漂移
    1.2 资产之困:样本建设依赖经验直觉,覆盖盲区难以量化识别且异构业务数据形态差异显著,统一描述与治理困难
    1.3 工程之困:规模化执行压力大,通用评测架构落地受阻
2. 破局:AI驱动的工业化评测框架
    2.1 范式跃迁目标:从"人评人治"到"算法自治"的四个可——可描述、可复用、可度量、可优化
    2.2 四层AI化架构:Raw Data底座 → 手法-样本知识库 → Judge Model中枢 → 自迭代闭环
    2.3 统一数据协议:百万级异构样本的AI标准化治理,破解"无法描述即无法评测"
    2.4 效能跃迁:AI驱动评测时效从14天压缩至4小时
3. 资产层:AI式手法挖掘-样本结构化知识库
    3.1 黑产手法深度挖掘:攻击模式抽取与结构化建模
    3.2 "手法-样本"索引构建:智能索引与双向关联
    3.3 自迭代机制:基于模型弱点与业务反馈自动扩充评测边界
    3.4 核心突破:样本资产从"专家经验"到"AI自演进知识库"
4. 评估层:Judge Model客观评估中枢与多维评估手段
    4.1 人工标尺的局限:主观分歧、标准漂移、不可复现
    4.2 Judge Model架构:安全领域专用评估大模型的设计与校准
    4.3 多维度评测手段融合:准确性/鲁棒性/增益性的可度量
    4.4 核心突破:以AI算法共识替代人工标尺,终结标准漂移
5. 工程层:AI化评测-归因-自迭代闭环
    5.1 穿透评分表象:模型薄弱点定位与训练数据缺口识别
    5.2 "评测-诊断-优化"正反馈:从评分到根因到策略到验证的自动化链路
    5.3 规模化执行:流程自动化、资源弹性调度、结果智能分析
    5.4 时效拆解:14天→4小时的关键工程优化(任务并行、增量评测、热点缓存)
    5.5 核心突破:数据驱动的持续优化替代经验驱动的单次评测
6. 实践验证:资金风控场景的工业化落地
    6.1 场景特征:资金欺诈手法多变、时效性强、损失不可逆
    6.2 落地路径:在资金风控场景的适配与部署
    6.3 关键指标:评测时效、覆盖度提升、误报/漏报收敛效果
    6.4 效能对比:传统模式 vs 一体化框架的量化收益分析
7. 范式跃迁与未来演进
    7.1 从静态评测到动态对抗:实时感知黑产手法变化的智能评测
    7.2 从评测工具到评测智能体:自主决策、自我进化的评测系统
    7.3 行业生态共建:开放评测标准,推动安全大模型基线提升
敬请期待
敬请期待
......
......
......
SECon组委会是由业界多位资深技术专家发起,负责组织技术指导委员会,并和委员会的专家一起挖掘全球软件工程领域的创新技术,同时依托智盟创课国内领先的人才能力提升服务供应商,组织专业的会务服务团队,全面推进会议的顺利落地,保证参会者体验。
服务总线:400-183-9980
商务合作:151-2264-3988  木子  
票务联系:186-0005-0529  张老师
E-mail:speaker@secon.com.cn 
关注SECon公众号
添加SECon小助手,获取
会议最新资讯