现就职于阿里巴巴集团通义实验室,主要负责 Agent Post-training 及 Agentic RL 训练方法的研究与落地。在人工智能与自然语言处理领域拥有丰富的学术积累,多项研究成果发表于 ICLR、ACL、AAAI 等国际顶级学术会议。当前核心研究方向为 Agentic RL(智能体强化学习)训练方法,致力于探索和提升大模型智能体在复杂环境中的自主决策与泛化能力。
面对出行规划、深度研报等缺乏“唯一标准解”的开放域任务,传统强化学习常因奖励信号失真陷入训练瓶颈。本次演讲聚焦开放域智能体的工程化与算法落地,深度解析对比式强化学习方法 ArenaRL 及其开源轻量级训练框架。
内容大纲:
1. 背景与挑战:当强化学习遇到“无标准解”的真实世界
1.1 开放域出行的业务特性:模糊意图、动态约束与庞大的解空间
1.2 传统 RL 在开放域的失效困境:
1.3 “绝对打分”带来的奖励信号失真
1.4 模型进化后期的“信号淹没”与判别崩溃难题
2. 算法破局:ArenaRL 锦标赛式对比强化学习
2.1 核心思想转变:从“绝对标量优化”到“组内相对优势(Advantage)排序”
2.2 细粒度过程评估:基于双向评分协议的思维链与工具调用检验
2.3 拓扑结构演进:如何通过“种子单败淘汰赛”将算力开销降至 O(N) 的线性水平
3. 框架设计:专为开放域 RL 打造的训练基座
3.1 训练框架架构解析:基于 slime 构建的轻量级、非侵入式扩展设计
3.2 支撑高吞吐训练:底层的异步调度机制
3.3 运行环境解耦:深度集成 MCP,实现本地/远程工具的即插即用与标准化
4. 落地实践:高德地图核心业务验证
4.1 确定性场景:如何在严苛规则下敏锐捕捉方案优劣,突破准确率瓶颈
4.2 开放式场景:时间、预算与个性化偏好的多维权衡策略
4.3 真实 Badcase 到 Goodcase 的进化拆解
5. 总结与展望
5.1 Open-Travel 与 Open-DeepResearch 评测基准开源介绍
5.2 从被动模仿(SFT)到智能体自我进化(Self-Evolution)的闭环构建
听众受益:
1. 算法认知落地: 深刻理解在没有“唯一解”的复杂业务中,如何通过相对排序机制打破 RL 的奖励崩塌瓶颈。
2. 架构选型参考: 深入了解底层基于 slime 构建的训练框架的设计哲学,学习如何借助 MCP 协议高效搭建解耦的智能体训练流水线。
3. 实战经验复用: 获取高德地图在处理带有主观偏好与多维约束场景时,将前沿 RL 算法转化为核心业务增长指标的真实落地经验。