专场出品人:
......
......
专场智能体开发框架与架构模式
.......


陈博理
基于强化学习的开放域智能体训练框架和落地实践
阿里巴巴 通义实验室研究员
现就职于阿里巴巴集团通义实验室,主要负责 Agent Post-training 及 Agentic RL 训练方法的研究与落地。在人工智能与自然语言处理领域拥有丰富的学术积累,多项研究成果发表于 ICLR、ACL、AAAI 等国际顶级学术会议。当前核心研究方向为 Agentic RL(智能体强化学习)训练方法,致力于探索和提升大模型智能体在复杂环境中的自主决策与泛化能力。
面对出行规划、深度研报等缺乏“唯一标准解”的开放域任务,传统强化学习常因奖励信号失真陷入训练瓶颈。本次演讲聚焦开放域智能体的工程化与算法落地,深度解析对比式强化学习方法 ArenaRL 及其开源轻量级训练框架。

内容大纲:
1. 背景与挑战:当强化学习遇到“无标准解”的真实世界
    1.1 开放域出行的业务特性:模糊意图、动态约束与庞大的解空间
    1.2 传统 RL 在开放域的失效困境:
    1.3 “绝对打分”带来的奖励信号失真
    1.4 模型进化后期的“信号淹没”与判别崩溃难题
2. 算法破局:ArenaRL 锦标赛式对比强化学习
    2.1 核心思想转变:从“绝对标量优化”到“组内相对优势(Advantage)排序”
    2.2 细粒度过程评估:基于双向评分协议的思维链与工具调用检验
    2.3 拓扑结构演进:如何通过“种子单败淘汰赛”将算力开销降至 O(N) 的线性水平
3. 框架设计:专为开放域 RL 打造的训练基座
    3.1 训练框架架构解析:基于 slime 构建的轻量级、非侵入式扩展设计
    3.2 支撑高吞吐训练:底层的异步调度机制
    3.3 运行环境解耦:深度集成 MCP,实现本地/远程工具的即插即用与标准化
4. 落地实践:高德地图核心业务验证
    4.1 确定性场景:如何在严苛规则下敏锐捕捉方案优劣,突破准确率瓶颈
    4.2 开放式场景:时间、预算与个性化偏好的多维权衡策略
    4.3 真实 Badcase 到 Goodcase 的进化拆解
5. 总结与展望
    5.1 Open-Travel 与 Open-DeepResearch 评测基准开源介绍
    5.2 从被动模仿(SFT)到智能体自我进化(Self-Evolution)的闭环构建

听众受益:
1. 算法认知落地: 深刻理解在没有“唯一解”的复杂业务中,如何通过相对排序机制打破 RL 的奖励崩塌瓶颈。
2. 架构选型参考: 深入了解底层基于 slime 构建的训练框架的设计哲学,学习如何借助 MCP 协议高效搭建解耦的智能体训练流水线。
3. 实战经验复用: 获取高德地图在处理带有主观偏好与多维约束场景时,将前沿 RL 算法转化为核心业务增长指标的真实落地经验。

魏政刚
微流程SOP+Agentic:平衡客户体验与企业流程的金融AI超级客服实践
中国平安人寿 客户运营部开发团队总经理
......
内容大纲:
1. 金融AI客服的核心矛盾:客户体验与企业流程的失衡困境
2. 行业现状:金融AI客服的双重诉求——客户端追求“快、准、简”,企业端坚守“合、严、可”
3. 矛盾拆解:过度侧重企业流程导致客户体验割裂(流程繁琐、应答机械);过度追求客户体验导致企业流程失控(合规缺失、链路不可追溯)
4. 前端核心命题:如何通过技术实现“客户体验便捷化”与“企业流程严谨化”的双向兼顾,破解协同难题

核心解决方案:微流程SOP+Agentic,双向赋能实现平衡
1. 设计理念:以“双向平衡”为核心,让SOP守护企业流程,让Agentic服务客户体验
2. 微流程SOP设计:贴合企业流程需求,拆解金融业务场景、定义标准化合规流程、嵌入关键管控节点,兼顾流程严谨性与前端可交互性
3. Agentic智能体设计:立足客户体验需求,优化意图识别、多轮对话管理、业务流程自主规划,实现“少交互、快响应、准解答”
4. 协同逻辑:前端作为衔接核心,实现SOP流程与Agentic智能的动态联动,既不突破企业流程底线,也不牺牲客户交互体验

前端落地实践:平衡体验与流程的全链路实现
1. 前端架构设计:构建“流程管控+体验优化”双核心架构,实现SOP引擎与Agentic智能体的高效通信、状态协同
2. 核心模块实现:客户体验侧(多轮对话组件、个性化适配、快速响应交互);企业流程侧(SOP流程可视化、合规节点校验、操作链路追溯)
3. 双向优化:客户体验优化(加载提速、多终端适配、交互简化);企业流程优化(敏感信息脱敏、流程日志留存、合规校验兜底)

典型业务场景落地:体验与流程的平衡实践案例
1. 保险咨询与理赔指引:SOP规范理赔流程、保障合规,Agentic简化咨询流程、引导材料上传,实现“流程不缺位、体验不打折”
2. 落地效果:客户交互时长缩短、满意度提升,企业流程合规率100%、运营成本下降的量化数据呈现

未来展望:持续深化体验与流程的双向平衡
1. 体验升级:前端视角下的个性化交互、情感识别,进一步简化客户操作,提升交互舒适度
2. 流程优化:结合RAG与大数据,实现SOP流程的动态适配,兼顾企业管控与客户体验效率
3. 行业延伸:将“体验+流程”平衡模式适配更多金融细分场景,打造全链路、双兼顾的金融AI客服解决方案

听众收益
1. 明确金融AI客服中“客户体验与企业流程”的核心矛盾,掌握“微流程SOP+Agentic”的平衡设计思路。
2. 获取兼顾客户体验与企业流程的前端落地方案,掌握核心模块实现、交互优化与流程管控的关键技巧。
3. 借鉴典型业务场景中“体验与流程双向平衡”的实践经验,可直接复用相关技术方案与组件设计。
4. 了解金融AI客服在“体验优化+流程管控”方向的未来发展趋势,为自身项目迭代提供参考。

敬请期待
敬请期待
......
......
......
SECon组委会是由业界多位资深技术专家发起,负责组织技术指导委员会,并和委员会的专家一起挖掘全球软件工程领域的创新技术,同时依托智盟创课国内领先的人才能力提升服务供应商,组织专业的会务服务团队,全面推进会议的顺利落地,保证参会者体验。
服务总线:400-183-9980
商务合作:151-2264-3988  木子  
票务联系:186-0005-0529  张老师
E-mail:speaker@secon.com.cn 
关注SECon公众号
添加SECon小助手,获取
会议最新资讯