后训练时代:SRPO通过强化学习提升LLM的跨领域推理能力
专注于快手代码大模型算法研发,负责大模型预训练、微调及强化学习后训练。创新应用强化学习提升模型在工具调用、任务规划和自我反思等复杂环境交互能力。成功推动大模型在多个核心场景落地,包括:智能代码生成、智能Oncall系统、AI研发助手以及端到端需求交付自动化,持续探索大模型技术在Coding领域的边界突破。
深入探讨强化学习后训练(RL)在大语言模型(LLM)跨领域推理中的关键作用,并结合快手Kwaipilot团队提出的SRPO框架(两阶段历史重采样策略优化),解析RL如何突破传统监督式微调(SFT)的局限性。分享SRPO在解决多领域数据冲突、样本效率低下等挑战中的独特优势。将结合SRPO的实践案例,阐述RL如何让模型在真实交互环境中自我探索,整合工具链,并在数据稀缺场景下实现性能跃升。最后,将展望RL驱动的LLM未来在coding Agent中的应用和研究方向。
内容大纲
1. 强化学习:大模型能力跃迁的核心战场
1.1 RL vs SFT:预训练模型正面临边际效益递减,投入更多算力带来的回报越来越小,从静态数据拟合到动态环境策略优化
1.2 RL的核心优势:通过与真实环境交互,LLM可以自我优化
2. SRPO的技术突破与启示
2.1 两阶段训练:数学与代码能力的协同进化
2.2 历史重采样(HR):解决样本效率与梯度失效
2.3 RL后训练涌现的推理模式
2.4 高效训练架构:从vLLM推理加速到分布式RL优化
3. 未来展望
3.1 从跨领域推理到Coding Agent