专场出品人:马腾 
阿里云 高级技术专家
在阿里云主要从事基础软件尤其是大模型软件栈在新硬件环境下国产化的研究工作,并作为阿里方负责人运营大模型开源项目Mooncake(4K Star),目前Mooncake已经有阿里云/清华/月之暗面/蚂蚁/字节/趋境科技等多方参与,并且成功接入vLLM/SGLang/LMDeploy/LMCache等社区,同时他也是SGLang,RBG等社区的Committer。他在SOSP, ASPLOS, ATC, SC, INFOCOM, VLDB, TPDS等顶级会议和期刊上发表论文二十余篇,相关成果授权美国/中国专利10项。他曾入选CCF系统软件专委会优秀博士论文激励计划,担任PPoPP, FAST, DASFAA, TPDS,ICME, TC, JSC等国际会议/期刊的程序委员会成员和审稿人。
专场:AI Infra 和加速推理 
本专场聚焦推理性能优化、Agent基建支撑、多模态数据底座三大核心方向,围绕这些维度深度展开大模型与智能Agent落地的底层技术瓶颈,覆盖LLM推理效率提升(以KVCache为核心的软件栈、资源池化与路径优化)、Agent生产化基建(安全沙箱、Serverless弹性供给)、多模态数据基础设施(“计算-存储-模型”协同的数据湖架构)三大技术域,邀请阿里云、腾讯云、火山引擎等专家,从技术方案、工程实践到场景落地,全方位解析AI Infra在性能、成本、安全、扩展性上的突破路径,是智能时代软件工程底层技术的交流平台。
马腾
以KVCache为中心的云上LLM推理软件栈
阿里云 高级技术专家
在阿里云主要从事基础软件尤其是大模型软件栈在新硬件环境下国产化的研究工作,并作为阿里方负责人运营大模型开源项目Mooncake(4K Star),目前Mooncake已经有阿里云/清华/月之暗面/蚂蚁/字节/趋境科技等多方参与,并且成功接入vLLM/SGLang/LMDeploy/LMCache等社区,同时他也是SGLang,RBG等社区的Committer。他在SOSP, ASPLOS, ATC, SC, INFOCOM, VLDB, TPDS等顶级会议和期刊上发表论文二十余篇,相关成果授权美国/中国专利10项。他曾入选CCF系统软件专委会优秀博士论文激励计划,担任PPoPP, FAST, DASFAA, TPDS,ICME, TC, JSC等国际会议/期刊的程序委员会成员和审稿人。
Mooncake构建了一个以KVCache为核心的云上推理软件栈(AI Stack),通过Transfer Engine、KVCache Store与分层上下文缓存等组件,将Prefill/Decode(PD)分离、异构并行与零拷贝传输(RDMA/GPUDirect)有机结合,显著提升GPU利用率与吞吐并降低延迟和内存占用。该栈在工程化层面与主流推理框架(如SGLang、vLLM、RTP)深度集成,并且和Router,Gatway,K8S Deployment等组件一起组成了推理软件栈。从而支持Docker一键部署,KVCache存储服务化,与网卡/GPU虚拟化等等。已在真实业务中实现QPS提升超3倍、GPU利用率由不足40%提升到约75%、内存占用下降约40%并将延迟减半。为解决PD分离在云原生环境中的部署与运维难题,RoleBasedGroup(RBG)提供基于“角色”的声明式编排、顺序启动、精细扩缩容和智能滚动升级能力,使复杂多角色集群能实现无感变更与快速恢复。配合AIGW的全局、缓存感知与多因子路由调度,系统可实现请求级的缓存亲和、过载保护与多租户SLO保障,从而在大规模生产环境中将PD分离的性能优势持续、稳定地转化为可运维的产能与成本节约。作为开源生态的核心实践,Mooncake正与社区/产业伙伴协同演进,推动KVCache复用与解耦式资源池化成为云上大模型推理软件栈的基础设施。
 
内容大纲 
1. 推理系统当前问题:大模型推理的成本、吞吐与长上下文管理难题;PD(Prefill/Decode)分离带来的资源特性差异。
核心:以共享 KVCache 为中心,实现上下文复用与内存池化,避免重复计算并提升资源利用率。
2. Mooncake 核心组件与技术亮点:全链路零拷贝、Multi‑NIC 池化、拓扑感知与容错;支持 eRDMA/GPUDirect。
KVCache Store:透明多级缓存、P2P Store、coro_rpc 控制路径优化与上下文指纹索引。
分层上下文缓存与自适应批处理,支持 EP/DP/TP/PD 混合并行。与 SGLang、vLLM、LMCache 等框架兼容,提供 whl/docker 部署路径,
便于云上规模化落地。
3. LLM推理软件栈工程化效能与集成方式:通过RBG(编排)与 AIGW(调度)协同,来实现生产化保障,提供一键部署的LLM推理软件栈。
RBG(Role‑based Pod Group)提供声明式角色模板、DAG 启动顺序、按角色精细扩缩容、智能滚动升级与分级故障恢复。而AIGW则提供了缓存感知全局路由、过载保护与多租户 QoS(基于 Envoy 扩展),实现请求级 KVCache 亲和与 SLO 驱动调度。
4. 生态、落地路径与演进方向:Mooncake开源社区活跃、与主流框架/厂商合作(SGLang、vLLM、Dynamo/Nixl、LMCache 等)。Mooncake Store v2、更多推理框架适配、AIGW 的精确 cache‑awareness 与 SLO 预测、PD 分离调度能力。
 
王超凡
Agent Infra生产落地的挑战及实践
腾讯云容器产品TKE技术负责人 专家工程师
腾讯云容器产品TKE技术负责人,专家工程师。关注云原生、Agent Infra等领域。负责腾讯云Agent Sandbox产品研发,重点关注沙箱安全、性能、成本等优化方向。同时负责TKE大规模K8s 集群治理及etcd 集群治理、性能优化、安全保障、资源利用率提升等工作,保障了全网数万K8s集群和数千万核心计算资源的稳定运行,支撑了腾讯全面云原生上云战略,服务了众多内外部客户,在云原生和Agent Infra领域有丰富的实践。

AI Agent不仅是一种新的工具,更是一种全新的软件范式,它带来的挑战与以往的任何一种工作负载都截然不同。不同于传统软件的确定性、简单性、被动执行等特点,AI Agent的不确定性、复杂性、和自主性,对运行Agent的基础设施也提出了新的要求。本次分享将围绕一些实际的用户场景,来介绍面向Agent的基础设施需要解决哪些层面的问题,以及我们实践落地过程中的一些思考。

内容大纲

1. Agent落地场景介绍
    1.1 Agent在千行百业开始兴起
    1.2 Agent演进:从会话式到执行式
2. 构建企业Agent 存在的技术挑战
    2.1 Agent实际落地过程中遇到的问题
    2.2 Agent是一种全新的软件范式
    2.3 面向Agent的基础设施需要解决的问题
3. 如何应对Agent的“自主性”带来的安全挑战
    3.1 安全沙箱技术
    3.2 会话隔离与权限隔离
4. 如何实现极致的弹性速度和资源成本
    4.1 如何实现极致的启动速度
    4.2 基于Serverless的弹性资源供给模式
5.展望

丁远普
基于Daft、Lance、豆包大模型 构建多模态AI数据湖
火山引擎 AI数据湖研发负责人
拥有超过 10 年的大数据 B 端产品研发经验,当前负责火山引擎 EMR(开源大数据平台)、LAS(AI 数据湖服务)产品的研发工作。自 2023 年起开展 Data for AI 转型探索,在应对 AI 时代数据基建需求变更方面经验丰富。在结构化数据到多模态数据的管理、处理、存储,以及预训练、后训练、推理、AI 应用等方面,具备多个行业的落地实践经验。
AI 时代多模态数据的爆发使传统数据湖陷入存储低效、计算割裂、协同不足的困境。本主题聚焦 “计算 - 存储 - 模型” 三位一体的解决方案:以 Daft 为湖计算引擎,依托 Ray 实现单机到分布式的无缝扩展,通过延迟计算与 CPU/GPU 异构调度,统一处理结构化与图文音视频等多模态数据,打破大数据与 AI 团队协作壁垒;以 Lance 为湖存储核心,通过列式存储进行高效数据压缩、实现大小列统一管理与 schema 零拷贝变更,解决 IO 放大问题;豆包大模型则作为智能中枢,通过 Daft 的插件化接口接入,实现多模态数据的理解、向量化与推理加速,支撑从数据清洗到模型训练的全链路闭环,为 AI 数据基础设施提供全新范式。

内容大纲
1. 多模态时代:传统数据湖的现实困境
    1.1 多模态数据爆发的行业现状
    1.2 传统数据湖的三大核心痛点
2. 三位一体架构:多模态 AI 数据湖的核心方案
    2.1 架构设计逻辑:“计算 - 存储 - 模型” 协同闭环
    2.2 关键组件 1:Daft 湖计算引擎
    2.3 关键组件 2:Lance 湖存储核心
    2.4 关键组件 3:豆包大模型智能中枢
3. 实践落地:两大典型场景的应用成效
    3.1 自动驾驶场景
    3.2 LLM 图文处理场景
4. 方案核心价值:重构 AI 数据基础设施
    4.1 效率价值:存储 / 计算 / 推理全链路性能提升
    4.2 协作价值:打通大数据与 AI 团队工作流
    4.3 扩展价值:支持多行业多模态场景快速适配
5. 未来展望:多模态 AI 数据湖的迭代方向
    5.1 技术迭代
    5.2 生态构建

听众受益
1. 明晰多模态数据湖痛点解法:快速掌握传统数据湖存储低效、计算割裂等问题的应对思路,为优化现有数据基础设施提供方向。
2. 掌握三位一体架构逻辑:深入理解 Daft、Lance、豆包大模型的协同机制,明晰各组件核心能力与集成方式,构建技术认知体系。
3. 获取场景化落地经验:借鉴自动驾驶、LLM 图文处理场景的实施路径与成效,可直接参考适配自身行业的多模态数据处理方案。
4. 找到效率与协作提升路径:了解如何通过方案实现存储 / 计算 / 推理全链路提效,以及打通大数据与 AI 团队工作流的方法。
5. 把握未来发展方向:提前知晓多模态数据湖的技术迭代、场景拓展及生态构建趋势,助力业务长期布局与创新。

SECon组委会是由业界多位资深技术专家发起,负责组织技术指导委员会,并和委员会的专家一起挖掘全球软件工程领域的创新技术,同时依托智盟创课国内领先的人才能力提升服务供应商,组织专业的会务服务团队,全面推进会议的顺利落地,保证参会者体验。
服务总线:400-183-9980
商务合作:151-2264-3988  木子  
票务联系:185-1306-7287  马静  
E-mail:speaker@secon.com.cn 
关注SECon公众号
添加SECon小助手,获取
会议最新资讯