面向安全大模型的工业化评测体系:从经验依赖到AI驱动的范式演进
毕业于美国加州大学洛杉矶分校(UCLA),校招入职蚂蚁集团大安全技术部门,长期从事资金风控质量保障建设,从 0 到 1 建设资金风控大模型评测方法论,目前仍主要负责风控智能化项目,并探索评测 AI 流的落地实践,推动整体安全风控评测向 AI 驱动的智能化演进。
议题介绍:
本次分享我们为大模型在安全领域(如内容风控、金融反诈、身份核身等)面临的评测困境,提出一套数据“评估工程一体化”的工业化评测框架,通过构建Raw Data原始存储底座实现异构数据的标准化管理与跨域复用,将样本资产管理升级为可演进的知识库,实现自动化评估与精准归因,最终驱动“评测—诊断—优化”闭环。将评测周期从“数周”大幅压缩至“数小时”,实现从经验依赖到数据驱动的范式跃迁
内容大纲:
1. 安全领域大模型评测的深层困境
1.1 标准之困:安全风险缺乏客观基准,专家主观分歧导致评估标准漂移
1.2 资产之困:样本建设依赖经验直觉,覆盖盲区难以量化识别且异构业务数据形态差异显著,统一描述与治理困难
1.3 工程之困:规模化执行压力大,通用评测架构落地受阻
2. 破局:AI驱动的工业化评测框架
2.1 范式跃迁目标:从"人评人治"到"算法自治"的四个可——可描述、可复用、可度量、可优化
2.2 四层AI化架构:Raw Data底座 → 手法-样本知识库 → Judge Model中枢 → 自迭代闭环
2.3 统一数据协议:百万级异构样本的AI标准化治理,破解"无法描述即无法评测"
2.4 效能跃迁:AI驱动评测时效从14天压缩至4小时
3. 资产层:AI式手法挖掘-样本结构化知识库
3.1 黑产手法深度挖掘:攻击模式抽取与结构化建模
3.2 "手法-样本"索引构建:智能索引与双向关联
3.3 自迭代机制:基于模型弱点与业务反馈自动扩充评测边界
3.4 核心突破:样本资产从"专家经验"到"AI自演进知识库"
4. 评估层:Judge Model客观评估中枢与多维评估手段
4.1 人工标尺的局限:主观分歧、标准漂移、不可复现
4.2 Judge Model架构:安全领域专用评估大模型的设计与校准
4.3 多维度评测手段融合:准确性/鲁棒性/增益性的可度量
4.4 核心突破:以AI算法共识替代人工标尺,终结标准漂移
5. 工程层:AI化评测-归因-自迭代闭环
5.1 穿透评分表象:模型薄弱点定位与训练数据缺口识别
5.2 "评测-诊断-优化"正反馈:从评分到根因到策略到验证的自动化链路
5.3 规模化执行:流程自动化、资源弹性调度、结果智能分析
5.4 时效拆解:14天→4小时的关键工程优化(任务并行、增量评测、热点缓存)
5.5 核心突破:数据驱动的持续优化替代经验驱动的单次评测
6. 实践验证:资金风控场景的工业化落地
6.1 场景特征:资金欺诈手法多变、时效性强、损失不可逆
6.2 落地路径:在资金风控场景的适配与部署
6.3 关键指标:评测时效、覆盖度提升、误报/漏报收敛效果
6.4 效能对比:传统模式 vs 一体化框架的量化收益分析
7. 范式跃迁与未来演进
7.1 从静态评测到动态对抗:实时感知黑产手法变化的智能评测
7.2 从评测工具到评测智能体:自主决策、自我进化的评测系统
7.3 行业生态共建:开放评测标准,推动安全大模型基线提升