专场出品人:张奇
复旦大学计算机科学技术学院教授、博士生导师
兼任上海市智能信息处理重点实验室副主任,中国中文信息学会理事、CCF 大模型论坛常务委员、CIPS 信息检索专委会常务委员、CIPS 大模型专委会委员。主要研究方向是自然语言处理和信息检索,聚焦大语言模型、自然语言表示、信息抽取、鲁棒性和解释性分析等。在ACL、EMNLP、COLING、全国信息检索大会等重要国际国内会议多次担任程序委员会主席、领域主席、讲习班主席等。近年来承担了国家重点研发计划课题、国家自然科学基金、上海市科委等多个项目,在国际重要学术刊物和会议发表论文200余篇,获得美国授权专利4项,著有《自然语言处理导论》和《大规模语言模型:理论与实践》,作为第二译者翻译专著《现代信息检索》。获得WSDM 2014最佳论文提名奖、COLING 2018 领域主席推荐奖、NLPCC 2019杰出论文奖、COLING 2022杰出论文奖。获得上海市“晨光计划”人才计划、复旦大学“卓越2025”人才培育计划等支持,获得钱伟长中文信息处理科学技术一等奖、汉王青年创新一等奖、上海市科技进步二等奖、教育部科技进步二等奖、ACM 上海新星提名奖、IBM Faculty Award等奖项。
专场AI前沿论文解读
聚焦大模型技术最前沿突破,汇聚学术界与工业界专家学者,深度解读 2024-2025 年度 AI 领域里程碑式论文、前沿技术框架与产业级实践报告。本专场将为您呈现一场兼具学术严谨性与工程实践价值的 AI 技术盛宴,探索大模型从理论突破到技术落地的完整链路。
技术纵览:
万亿参数之上的新范式:MoE 架构、稀疏训练、多模态融合的最新研究
推理革命:低功耗推理加速技术、Agent 智能体涌现能力的理论突破
代码即未来:AI 自主编程、多模态代码生成的前沿进展
可复用的工程方法论:从分布式训练优化到端侧模型压缩,从提示工程到评估基准设计,提供可复用的工程方法论


梁国晟
用于隐式模型融合的加权奖励偏好优化WRPO
中山大学 计算机学院 语言智能技术实验室 研究生
中山大学计算机学院在读研究生,导师为权小军教授。本人主要研究方向为自然语言处理,专注于大语言模型、推理模型及模型融合等相关技术。科研方面致力于自然语言处理前沿技术的探索与实践,已公开发表学术论文3篇,并申请发明专利1项。
模型融合旨在结合多个独立模型的优势以增强整体系统能力 。在大语言模型(LLMs)领域,实现高效融合常面临词汇对齐、参数合并等挑战。本次演讲将解读ICLR 2025会议论文《Weighted-Reward Preference Optimization for Implicit Model Fusion》,该研究提出了一种新颖的隐式模型融合方法WRPO 。此方法通过加权奖励的偏好优化及渐进式适应策略 ,在无需复杂对齐操作的条件下 ,高效地将多个源LLM的能力迁移至目标模型。实验证明WRPO能显著提升模型性能 ,为构建更强大、高效的语言模型应用提供了新的思路与实用技术。

内容大纲
1. 引言和动机
    1.1 大型语言模型(LLMs)
    1.2 为什么需要模型融合/增强LLM
    1.3 现有模型融合方法的挑战
    1.4 隐式模型融合 (IMF) 的提出
2. 背景知识铺垫
    2.1 LLM微调
    2.2 偏好优化
    2.3 直接偏好优化 (DPO) 详解
    2.4 DPO的相关变体
    2.5 IMF直接用DPO的问题:分布偏差
3. WRPO 方法详解
    3.1 WRPO的核心思想
    3.2 训练数据构建
    3.3 目标函数
    3.4 加权奖励 (Weighted-Reward) 与渐进式适应
4. 实验与结果
    4.1 实验设置
    4.2 主要结果
    4.3 机制分析
5. 结论与展望
    5.1 主要贡献和核心发现
    5.2 局限与未来工作

听众受益
了解模型融合技术、了解大语言模型能力增强的新方向
叶佳成
扩散语言模型  
香港大学 博士在读
目前香港大学三年级博士在读,师从于孔令鹏和余涛教授。硕士就读于复旦大学FudanNLP实验室师从于张奇教授。在人工智能领域国际顶级会议和期刊(如ICML、NeurIPS、ICLR、ACL、EMNLP、TASLP等)以第一作者身份发表文章十余篇,被引用次数达到1200余次。主要研究包含大语言模型、数据合成和扩散语言模型,主导研发了扩散语言模型Dream 7B。
目前主流的语言模型采用自回归模型的架构,本次报告将分享另一种基于扩散模型的语言模型。本次报告会先进行扩散模型背景介绍,描述如何对文本语言进行扩散建模。基于此,本次报告会进一步探讨扩散语言模型相比自回归模型的差异,并指出其在推理规划任务上的潜力。最后,本次报告会介绍我们在规模化离散扩散语言模型上的尝试以及最新的扩散语言模型Dream 7B。

内容大纲
1. 扩散模型背景介绍
2. 基于离散扩散模型的推理规划
3. 规模化离散扩散语言模型

张晓江
后训练时代:SRPO通过强化学习提升LLM的跨领域推理能力
快手 智能研发中心高级算法专家
专注于快手代码大模型算法研发,负责大模型预训练、微调及强化学习后训练。创新应用强化学习提升模型在工具调用、任务规划和自我反思等复杂环境交互能力。成功推动大模型在多个核心场景落地,包括:智能代码生成、智能Oncall系统、AI研发助手以及端到端需求交付自动化,持续探索大模型技术在Coding领域的边界突破。
深入探讨强化学习后训练(RL)在大语言模型(LLM)跨领域推理中的关键作用,并结合快手Kwaipilot团队提出的SRPO框架(两阶段历史重采样策略优化),解析RL如何突破传统监督式微调(SFT)的局限性。分享SRPO在解决多领域数据冲突、样本效率低下等挑战中的独特优势。将结合SRPO的实践案例,阐述RL如何让模型在真实交互环境中自我探索,整合工具链,并在数据稀缺场景下实现性能跃升。最后,将展望RL驱动的LLM未来在coding Agent中的应用和研究方向。

内容大纲
1. 强化学习:大模型能力跃迁的核心战场
    1.1 RL vs SFT:预训练模型正面临边际效益递减,投入更多算力带来的回报越来越小,从静态数据拟合到动态环境策略优化
    1.2 RL的核心优势:通过与真实环境交互,LLM可以自我优化
2. SRPO的技术突破与启示
    2.1 两阶段训练:数学与代码能力的协同进化
    2.2 历史重采样(HR):解决样本效率与梯度失效
    2.3 RL后训练涌现的推理模式
    2.4 高效训练架构:从vLLM推理加速到分布式RL优化
3. 未来展望
    3.1 从跨领域推理到Coding Agent

SECon组委会是由业界多位资深技术专家发起,负责组织技术指导委员会,并和委员会的专家一起挖掘全球软件工程领域的创新技术,同时依托智盟创课国内领先的人才能力提升服务供应商,组织专业的会务服务团队,全面推进会议的顺利落地,保证参会者体验。
服务总线:400-183-9980
商务合作:151-2264-3988  木子  
票务联系:186-0005-0529  丽媛  
E-mail:speaker@secon.com.cn 
关注SECon公众号
添加SECon小助手,获取
会议最新资讯