AI 安全与数据治理实践-2026上海_SECon全球软件工程技术大会-橙柚科技

专场出品人：

......

专场：AI 安全与数据治理实践

.......

李家琛

AI 重塑互联网风控

携程安全专家

在美团负责通用风控策略算法对设备账号评价交易登多场景达到策略准确提升10%召回提升20%，在B站负责风控引擎和所有业务风控，从零到一完成整个风控体系搭建。携程负责账号，风控邮件反诈，演唱会等，重建风控引擎，AI重塑风控策略算法，高效完成黑产对抗防控。

议题背景：

风控属于大数据领域偏垂直领域，很多数据和策略在公网查不到，所以大数据还没完全普及，如何利用最新大模型赋能风控是风控人挑战，本篇将从AI赋能风控基础建设，大模型智能告警，大模型推荐策略，大模型在私信/邮件/账号等领域攻防进行介绍，分享携程在大模型领域的风控实践。

内容大纲：
1. AI赋能风控基础建设
1.1 大模型为风控引擎搭建提效
1.2 大模型智能告警
2. 大模型业务领域攻防
2.1 私信领域大模型攻防
2.2 邮件领域大模型攻防
2.3 账号领域大模型攻防
3. 大模型策略自动化
3.1 大模型自动化策略

听众受益：
1. 大模型在风控领域实践
2. 如何结合OpenCode在风控领域提效
3. 如何写Prompt让AI理解风控业务

张琪

蚂蚁MASA评测-从归因到泛化，安全大模型深度攻防评测实践

蚂蚁集团质量技术专家

2017 年加入蚂蚁集团，长期从事大模型质量保障与评测体系建设，在模型评测、智能化样本生成等方向拥有丰富实践经验。曾负责内容安全、身份核验等业务域的模型评测工作，建设难题样本生成体系，探索从样本归因到生成手段还原的全链路技术落地。目前主要负责模型评测效能提升与 AI 驱动的样本生成能力建设，推动模型评测体系向智能化攻防方向演进。

议题背景：

AI 技术爆发式增长正驱动着黑样本生成工具走向“平民化”——从 AIGC 换脸、AI 文本改写，到 Prompt 工程驱动的对抗变体，这些“来源多元”、“变体海量”、“迭代快速”的黑样本正大量绕过生产模型造成实质风险。
实践中，传统评测样本在面对海量变体与新型攻击时，其对抗强度与覆盖广度均显不足，导致评测环境与真实攻防间存在显著差距。
对此我们发起「难题样本生成与攻防」课题，构建三大核心能力形成闭环：
1. 样本归因 —— 解构黑样本的毒性特征与来源；
2. 生成手段还原 —— 逆向推演黑样本的构造路径；
3. 样本泛化 —— 主动探索攻击者尚未使用的新型变体。
本次分享将结合内容安全、核身域、资金风控等场景的落地实践，展示对抗评测体系从"被动防守"转向"以攻促防"。

内容大纲:
1. AI 黑样本的衍化
1.1 从人工构造到 AIGC 泛滥：攻击工具的平民化演进
1.2 线上黑样本的新形态：换脸、改写、Prompt 对抗
2. 归因分析：定位毒性来源
2.1 解构黑样本的特征与来源
2.2 Deepfake 可解释研究：AM-FAN 模型与痕迹特征验证
3. 生成技术：从还原到泛化
3.1 生成手段还原：逆向推演黑样本的构造路径与工具链
3.2 批量化生成：基于还原能力构建可控的难题样本生成链路
3.3 样本泛化：主动探索攻击者尚未使用的新型变体
4. 未来：智能化攻防演进
4.1 从"被动防守"到"以攻促防"的方法论升级
4.2 归因-还原-泛化闭环的持续自动化能力建设

洺熙

大模型安全攻防实战

AI安全研究员

专注AI应用与安全一线前沿对抗研究
AI安全研究员，《Ai迷思录:Ai应用与安全指南》《prompt越狱手册》《Hello Ai》作者，《HaE》与《CaA》联创，《灵溯LLM安全测试平台》核心开发，CAIDCP认证，受邀企业AI安全演讲（腾讯,阿里,华为,深圳大学,青海民族大学,360, ,奇安信&补天,顺丰科技,H3C,CCS,关保联盟)

议题背景：
大语言模型（LLM）正以前所未有的速度融入企业业务与日常生活，但其安全防御体系却远未成熟。本议题从攻防双视角出发，系统剖析大模型面临的核心安全威胁，并通过大量真实案例与实操演示，揭示当前防御体系的深层盲区
议题首先厘清大模型安全的两大维度——内生安全（模型自身缺陷）与应用安全（交互生态漏洞），指出 Prompt注入与越狱攻击无法根除的结构性根源：模型的统一处理机制使其无法从本质上区分系统指令与用户输入，指令遵循能力与安全约束之间存在不可调和的内在矛盾。
在此基础上，议题深入展开六大攻击面的实战分析：
1. Prompt 注入与越狱——直接注入、间接注入、多模态注入、角色扮演、思维链劫持等手法及通杀越狱演示
2. 提示词泄露——系统 Prompt 窃取原理与防御（含 Manus 事件案例分析）
3. 数据投毒与后门——恶意微调、供应链投毒、后门触发器设计，覆盖从开源模型滥用到黑化模型构建的完整链条
4. 模型窃取——通过大规模交互探测实现模型蒸馏与克隆的攻击路径
5. 三方供应链风险——Skills、MCP 等插件生态的高权限设计与信任危机
6. AI 编程幻觉——Agentic Coding 范式下的幽灵依赖与供应链新型威胁

听众收益：
1. 理解大模型安全威胁的全景地图与攻击面分类
2. 掌握 Prompt 注入/越狱的核心原理及主流攻防手法
3. 了解数据投毒、后门、模型窃取等高级攻击的实战路径
4. 识别当前大模型部署中的常见安全误区与防御盲区
5. 获得可落地的安全架构设计参考

蔡小亮

Trust in Agent, Safety in Skills

——AI Agent Skills 生态的安全检测与可信治理新范式

上海安势信息售前技术总监

软件工程硕士，上海安势信息技术有限公司售前技术总监。深耕软件合规与开源治理领域，主导公司AI相关产品战略规划、行业解决方案设计及企业级开源合规治理体系构建。在软件供应链安全、合规数字化转型及技术落地实践中具备深厚经验。
曾服务于大型企业，负责合规数字化转型架构设计与软件开发全生命周期管理，推动技术与业务场景的深度融合。作为技术专家，深度参与 LFAPAC（Linux 基金会亚太区）、OpenChain 等国际开源组织的技术标准制定与生态建设，主导多项国家标准的编写工作，持续推动开源合规体系的本土化实践与国际标准对接。
在AI、软件供应链、5G 等前沿技术领域具备扎实技术储备与行业应用经验，擅长结合企业实际需求提供兼具前瞻性与落地性的技术解决方案，助力客户实现技术创新与合规管理的平衡发展

议题背景：
随着 AI Agent 技术的快速落地，以插件、工具、API 为核心的 Skills 生态成为智能体能力扩展的关键入口，同时也带来了区别于大模型原生安全的全新攻击面。传统安全方案因缺乏对 Skills 语义、权限链路与供应链的深度理解，已难以有效应对这一挑战。本演讲提出以"Safety in Skills + Trust in Agent"为核心的全新安全范式，从被动防御转向主动防控，从单点安全延伸至生态可信。新范式以 Skills 全维度全生命周期检测为基石，以全链路可信治理体系为骨架，贯穿安全左移、最小权限、全程可溯等核心原则。演讲将系统拆解这一新范式的理念架构与落地路径，并展望可信 Agent 生态的未来发展趋势。

内容大纲：
1. 行业现状与核心痛点：为什么我们需要新范式？
1.1 AI Agent Skills 生态的发展现状
1.1.1 Agent 技术的规模化落地趋势与 Skills 生态的爆发式增长
1.1.2 Skills 的主要形态：插件（Plugin）、工具调用（Tool Use）、外部 API、MCP Server 等
1.1.3 Skills 生态参与者：技能开发者、发布平台、Agent 集成方、终端用户
1.2 Skills 生态的核心安全风险拆解
1.2.1 技能供应链风险：恶意技能、依赖投毒、仿冒技能
1.2.2 技能执行风险：越权调用、提示注入（Prompt Injection via Skills）、沙箱逃逸
1.2.3 技能数据风险：隐私泄露、敏感数据传输、未授权数据访问
1.2.4 与大模型原生安全的边界区分（强调 Skills 层是独立且被忽视的攻击面）
1.3 传统安全方案的核心局限
1.3.1 静态规则无法理解 Skills 语义与上下文
1.3.2 缺乏对 Agent 调用链的全链路可见性
1.3.3 无法覆盖 Skills 从开发、发布到运行的完整生命周期
1.3.4 凸显"新范式"的必要性与紧迫性
2. 核心篇章：AI Agent Skills 安全检测与可信治理新范式
2.1 新范式的核心理念
2.1.1 核心定位：从"被动防御"→"主动防控"，从"单点安全"→"生态可信"
2.1.2 体系框架：检测为核、治理为纲、全链闭环、生态协同
2.1.3 五大核心原则：
      安全左移：将检测前置至 Skills 开发与发布阶段
      最小权限：技能调用遵循最低必要权限原则
      全程可溯：技能调用全链路日志与审计
      分级管控：按风险等级对技能实施差异化治理
      原生兼容：与主流 Agent 框架及 Skills 平台无缝集成
2.2 新范式之基石：Skills 全维度全生命周期安全检测体系（Safety in Skills）
2.2.1 检测维度一：
      静态检测（代码层、配置层、依赖层）
      Skills 代码 SAST 扫描
      第三方依赖 SCA 分析（含已知漏洞、License 合规）
      配置安全检查（权限声明、数据流定义）
2.2.2 检测维度二：
      语义与行为检测
      Skills 描述语义风险识别（误导性描述、隐藏指令）
      动态沙箱执行分析
      异常行为基线建模
2.2.3 检测维度三：
      供应链安全检测
      技能来源可信度验证
      仿冒/恶意 Skills 识别
      发布前准入检测门禁
2.2.4 生命周期覆盖：开发 → 测试 → 发布 → 运行 → 下线的闭环检测
2.3 新范式之骨架：Skills 生态全链路可信治理体系（Trust in Agent）
2.3.1 治理层一：技能身份与信任评级体系
      Skills 数字签名与身份认证
      可信等级评分模型（开发者、代码质量、历史行为）
2.3.2 治理层二：动态权限管控
      运行时权限动态收敛
      跨技能调用的权限隔离
2.3.3 治理层三：全链路审计与溯源
      Agent → Skills 调用链完整记录
      异常事件自动溯源与响应
2.3.4 治理层四：生态协同治理机制
      平台方、开发者、集成方的多方共治模型
      安全情报共享与黑名单联动
3. 未来展望：可信 Agent 生态的发展趋势
3.1 标准化进程：Skills 安全规范与行业标准的形成
3.2 自动化治理：AI 驱动的 Skills 安全检测与自愈能力
3.3 生态协同：跨平台可信 Skills 市场的构建路径
3.4 监管走向：国内外 AI Agent 安全合规的政策动态

听众收益：
1. 系统理解 AI Agent Skills 生态的安全风险全貌，建立区别于传统安全视角的新认知框架
2. 掌握一套可落地的 Skills 安全检测方法论，涵盖静态、语义、供应链三大检测维度
3. 获得 Skills 生态可信治理的完整架构参考，可直接映射至企业内部 Agent 平台建设
4. 提前识别 Agent Skills 供应链攻击、提示注入、越权调用等新型攻击手法，具备主动防御能力
5. 了解安全左移在 Agent 开发流程中的具体嵌入方式，为 DevSecOps 向 AgentSecOps 的演进提供指引

SECon组委会是由业界多位资深技术专家发起，负责组织技术指导委员会，并和委员会的专家一起挖掘全球软件工程领域的创新技术，同时依托智盟创课国内领先的人才能力提升服务供应商，组织专业的会务服务团队，全面推进会议的顺利落地，保证参会者体验。

服务总线：400-183-9980

商务合作：151-2264-3988 木子

票务联系：186-0005-0529 张老师

E-mail：speaker@qecon.com.cn

关注SECon公众号

添加SECon小助手，获取

会议最新资讯

免费领取大会两天PPT

点击领取

津ICP备2023002500号