IndustryCorpus2.0-多语种多行业预训练数据与指令数据集构建
多年算法开发和研究经验,曾在头部互联网公司负责亿级产品的搜索算法的研究和应用,主要方向为搜索和多模态。近年来,专注于大模型领域,主要方向为LLM和LMM的模型行业应用和落地,涉及数据集构建,模型训练,领域适配等相关方向的研究和探索。近期主导构建了全球规模最大的多语种多行业文本预训练数据集IndustryCorpus系列和多行业指令数据集IndustryInstruction。在医疗、教育、金融,汽车等多个领域进行了模型训练和相应开源工作,相关模型和方法已投稿AAAI,相关数据和模型在推动行业模型应用和落地方面取得了显著成果,不完全统计各数据集在huggingface平台已累计70k+下载量。
本报告主要包括4个内容,一个是对IndustryCorpus2多语种多行业预训练数据的构建,作为当前规模最大,质量较高的数据集的构建方案;第二IndustryInstruction多行业指令数据集的构建,该数据填补了多个行业数据缺乏的空白,在指令数据合成,多样性提升,质量评估,多轮对话上进行了多种探索和创新性的方案,第三个是行业大模型训练,使用构建的数据集在多个行业上进行了多种方式的模型训练和效果验证,医疗领域超过当前的开源医疗模型,其他领域也领先于当前的对标数据集或取得指标提升,第四个是《AI大模型行业数据集全景扫描》的解读,通过调研和统计,分析当前数据的分布状况,为从业者和研究人员数据的分布提供全局把控,启发一段阶段之后的探索方向。
内容大纲
1. IndustryCorpus2预训练数据透视与构建方案
1.1 为什么需要行业数据
1.2 IndustryCorpus2数据特点
1.3 IndustryCorpus2数据透视
1.4 IndustryCorpus2构建方案
1.5 多行业划分与质量提升方案
2. IndustryInstruction数据特点与构建方案
2.1 为什么要构建行业指令数据
2.2 IndustryInstruction数据透视
2.3 IndustryInstruction数据构建方案
2.3.1 数据合成
2.3.2 数据评估和筛选
2.3.3 数据去重
2.3.4 数据可视化
3. 行业大模型训练与效果分析
3.1 <医疗>领域CPT+SFT+RLHF全流程数据验证训练:CareBot
3.2 <交通运输>领域指令数据验证训练:与现有开源数据对比
3.3 <金融经济>领域指令数据验证训练
4.《 AI大模型行业数据集全景扫描 》解读
4.1 概述
4.2 行业数据匮乏
4.3 协议许可复杂
4.4 分布稀疏性
5. Summary and QA
听众受益
1. 行业预训练数据的构建方案
2. 行业指令数据的构建方案
3. 行业模型的训练方法和评估方法