让 Agent 安全操作生产环境,STAROps 工程设计实践
ApacheSkyWalkingCommitter,AlibabaLoongcollectorCommiter,长期深耕可观测性领域。负责阿里云MetricStore时序引擎核心研发,参与海量时序数据存储与查询引擎的设计与优化,对高性能数据处理、分布式系统架构有深入的工程实践。目前专注于STAROps智能运维平台核心工程建设,致力于构建自主监控、分析、自愈的AIOps产品,通过实时多维数据集、AI友好型运维工具链、领域专家经验库三大核心能力,为客户打造7×24自主运维的智能体团队。作为核心工程负责人,主导了Agent安全操作生产环境的工程设计,解决长周期任务执行、人机协同审批及全链路可观测等关键工程挑战。
议题背景:
AIOps正从工具重塑走向流程重塑,服务端托管的自主运维智能体成为核心产品形态。与本地Copilot不同,STAROps构建的是7×24持续运行的Agent团队——凌晨三点无人值守时依然在巡检、诊断、执行恢复。这带来三个本地Agent不曾面对的工程挑战:
●长周期任务的高可靠执行
●工具调用的安全管控
●代码执行环境的安全隔离
本次演讲将分享阿里云可观测团队如何通过Mission状态机、CheckpointRecovery、Human-in-the-Loop与凭证隔离、容器化沙箱与HTTPProxy拦截等工程设计,让无人值守的Agent值得信赖。
内容大纲:
1. 可观测智能体的机遇与挑战
1.1可观测与传统AI助手的差异:异步诊断、长周期执行、跨系统联动
1.2可观测场景的数据与任务特征:海量异构数据源、多轮诊断推理、变更执行与验证
1.3可观测智能体面临的新问题:7×24无人值守下的任务可靠性、工具调用安全性、执行环境隔离性
2. STAROps:面向长周期任务的Agent架构
2.1Mission执行引擎:三级模型、阶段状态机、Checkpoint断点续跑
2.2工具安全调用:多版本控制、统一网关、三层人机协同拦截、凭证隔离与服务端重签名
2.3沙箱安全隔离:容器化执行环境、双轨调用链、网络代理写请求逐条过审
3. 场景实践
3.1Kubernetes集群巡检:定时触发、多维数据采集、异常自动归因
3.2日志根因分析:从告警到定位的全链路Agent协作
听众受益
1. 建立服务端托管Agent与本地Copilot的工程差异认知,理解7×24无人值守场景下高可靠、安全调用、安全隔离三大挑战的问题本质
2. 获得长周期任务高可靠执行的工程方案:Mission状态机如何编排多阶段任务,CheckpointRecovery如何实现进程重启后的断点续跑
3. 掌握Agent工具安全调用的分层设计:三层HIL拦截如何覆盖从Agent内置工具到沙箱HTTP请求的全链路,凭证隔离如何让Agent永远不持有生产AK/SK
4. 了解容器化沙箱的安全隔离实践:HTTPProxy拦截如何对写请求逐条审批,双轨调用链如何区分远程执行与本地授权
5. 获取从对话式Agent到7×24自主运维智能体的产品演进路径参考,为自身AIOps落地提供架构借鉴