专注AI应用与安全一线前沿对抗研究
AI安全研究员,《Ai迷思录:Ai应用与安全指南》《prompt越狱手册》《Hello Ai》作者,《HaE》与《CaA》联创,《灵溯LLM安全测试平台》核心开发,CAIDCP认证,受邀企业AI安全演讲(腾讯,阿里,华为,深圳大学,青海民族大学,360, ,奇安信&补天,顺丰科技,H3C,CCS,关保联盟)
议题背景:
大语言模型(LLM)正以前所未有的速度渗透进企业核心业务与日常应用场景,然而其安全防护能力却严重滞后于部署速度。本议题站在红蓝对抗的实战视角,全面拆解大模型在真实环境中暴露的安全风险,结合大量攻击复现与案例剖析,揭示现有防护方案中被普遍忽视的薄弱环节。
议题首先回归问题本质——大模型为何天然易受攻击。其核心矛盾在于:模型以统一的方式处理所有输入,无法在架构层面区分"可信指令"与"不可信内容",这使得指令遵循能力本身成为了攻击者可利用的武器。Prompt 注入与越狱之所以难以根治,正是因为安全对齐与通用能力之间存在结构性的此消彼长。
在此认知基础上,议题围绕 Prompt 注入与越狱、提示词泄露、数据投毒与后门植入、模型窃取、三方供应链风险以及 AI 编程幻觉等威胁方向展开深度拆解,覆盖从直接注入、间接注入、多模态注入到角色扮演与思维链劫持的多元攻击手法,涵盖系统 Prompt 窃取、恶意微调与黑化模型构建的完整链条、大规模交互探测实现模型蒸馏的攻击路径,以及 Skills、MCP 等插件生态的信任危机与 Agentic Coding 范式下的幽灵依赖等供应链新型威胁。
听众收益:
1. 理解大模型安全威胁的全景地图与攻击面分类
2. 掌握 Prompt 注入/越狱的核心原理及主流攻防手法
3. 了解数据投毒、后门、模型窃取等高级攻击的实战路径
4. 识别当前大模型部署中的常见安全误区与防御盲区
5. 获得可落地的安全架构设计参考