专注AI应用与安全一线前沿对抗研究
AI安全研究员,《Ai迷思录:Ai应用与安全指南》《prompt越狱手册》《Hello Ai》作者,《HaE》与《CaA》联创,《灵溯LLM安全测试平台》核心开发,CAIDCP认证,受邀企业AI安全演讲(腾讯,阿里,华为,深圳大学,青海民族大学,360, ,奇安信&补天,顺丰科技,H3C,CCS,关保联盟)
议题背景:
大语言模型(LLM)正以前所未有的速度融入企业业务与日常生活,但其安全防御体系却远未成熟。本议题从攻防双视角出发,系统剖析大模型面临的核心安全威胁,并通过大量真实案例与实操演示,揭示当前防御体系的深层盲区
议题首先厘清大模型安全的两大维度——内生安全(模型自身缺陷)与应用安全(交互生态漏洞),指出 Prompt注入与越狱攻击无法根除的结构性根源:模型的统一处理机制使其无法从本质上区分系统指令与用户输入,指令遵循能力与安全约束之间存在不可调和的内在矛盾。
在此基础上,议题深入展开六大攻击面的实战分析:
1. Prompt 注入与越狱——直接注入、间接注入、多模态注入、角色扮演、思维链劫持等手法及通杀越狱演示
2. 提示词泄露——系统 Prompt 窃取原理与防御(含 Manus 事件案例分析)
3. 数据投毒与后门——恶意微调、供应链投毒、后门触发器设计,覆盖从开源模型滥用到黑化模型构建的完整链条
4. 模型窃取——通过大规模交互探测实现模型蒸馏与克隆的攻击路径
5. 三方供应链风险——Skills、MCP 等插件生态的高权限设计与信任危机
6. AI 编程幻觉——Agentic Coding 范式下的幽灵依赖与供应链新型威胁
听众收益:
1. 理解大模型安全威胁的全景地图与攻击面分类
2. 掌握 Prompt 注入/越狱的核心原理及主流攻防手法
3. 了解数据投毒、后门、模型窃取等高级攻击的实战路径
4. 识别当前大模型部署中的常见安全误区与防御盲区
5. 获得可落地的安全架构设计参考