目前是华东师范大学计算机科学与技术博士在读生,主要研究方向为自然语言处理、大语言模型以及推荐系统。我在顶级学术会议和期刊上发表了多篇论文,包括ACL、TKDE、PAKDD等,研究课题涵盖语义搜索、长上下文建模、代码检索和推荐系统去偏等多个领域。我的研究工作致力于推动大语言模型在实际应用中的表现,解决模型精度和效率的问题。我曾在蚂蚁集团担任研究型实习生,负责优化大语言模型在语义搜索和代码检索中的应用。实习期间,我参与了大语言模型的设计和调优,推动了多项技术落地应用,并成功将相关模型提升至行业领先水平。
本次演讲将围绕D2LLM和Codefuse-CGE模型的创新研究展开,主要聚焦于大语言模型在语义搜索和代码搜索领域的应用。D2LLM方法通过构建教师-学生模型,在对称和非对称搜索任务中实现高效的语义理解和查询优化。该方法结合LLM与bi-encoder架构,通过引入特征和排序模仿损失,大幅提升模型在复杂语义任务中的准确性和效率。在代码搜索方面,Codefuse-CGE模型利用PMA聚合机制和轻量化处理方案,有效降低了存储压力并提升嵌入性能,成功在多种代码检索任务中超越传统代码嵌入模型和闭源模型。实验结果表明,Codefuse-CGE的各个大小及各个维度版本在精度和效率上均达到SOTA水平,进一步推动了大模型在实际应用中的可行性和可扩展性。
内容大纲
1. 引言
1.1 研究背景与动机
1.1.1 大规模语言模型在语义搜索和代码检索中的应用需求
1.1.2 当前方法的局限性:BERT类双编码器与LLM交叉编码器的性能瓶颈
1.2 目标与贡献
1.2.1 提出D2LLM和CGE模型,优化语义搜索和代码嵌入的效率与效果
2. D2LLM模型设计与优化
2.1模型概述
2.1.1 D2LLM的基本架构与功能
2.1.2 语义搜索模型在对称与非对称搜索任务中的应用
2.2 现有方法对比
2.2.1 BERT双编码器
2.2.2 LLM交叉编码器
2.3 教师-学生模型架构
2.3.1 教师模型的激发LLM理解能力
2.3.2 学生模型的高效编码结构
2.4 训练目标与损失函数
2.4.1 对比模仿:教师模型句子关系的对比学习
2.4.2 排序模仿:正负样本的排序学习
2.4.3 特征模仿:特征信息的迁移
2.5 实验结果
2.5.1 与SOTA方法的性能对比:准确性与计算效率的提升
2.5.2 实际运行速度分析
3. CGE模型在代码嵌入中的应用
3.1 代码嵌入任务的挑战
3.1.1 代码与自然语言的表达差异
3.1.2 精度与存储压缩的平衡
3.2 现有方法的不足
3.2.1 BERT类代码嵌入模型
3.2.2 LLM类代码嵌入方法的存储压力过大
3.3 CGE模型架构设计
3.3.1 基于CodeQwen1.5-7B-Chat微调,提升代码理解能力
3.3.2 采用PMA模块进行句子级语义聚合,保证嵌入质量
3.3.3 魔改PMA实现多维度存储压缩
3.4 训练策略与目标
3.4.1使用多种方法挖掘难负样本
3.4.2 对比学习强化模型效果
3.4.3 embedding还原,确保代码语义的高效保留
3.5 实验结果分析
3.5.1 多种数据集上的准确率和效率表现
3.5.2 开源及行业应用前景
4. 总结与未来展望
4.1 未来工作
4.1.1 在语义搜索和代码检索任务中进一步优化
4.1.2 探索其他大规模语言模型在实际应用中的潜力
听众受益
- 1. 深入了解大语言模型在语义搜索和代码检索中的应用
听众将学习到如何有效利用大语言模型优化语义搜索和代码嵌入任务的性能和准确性,提升其对复杂查询的处理能力。
- 2. 掌握D2LLM和CGE模型的架构和创新点
通过了解教师-学生模型架构、PMA聚合机制等新颖设计,听众将获得有关构建高效、低资源消耗的语义和代码检索模型的实用知识。
- 3. 学习训练目标和损失函数的应用技巧
您将分享在语义搜索和代码检索中如何设计对比学习和特征模仿损失,使听众掌握提升模型表现的方法,适用于不同检索任务中的模型优化。
- 4. 了解模型性能优化与实际应用的平衡
通过实验结果和对比分析,听众可以学到如何在精度和计算资源之间取得平衡,使大模型能够在实际业务场景中高效应用。