主导FlagAI开源项目、悟道天鹰(Aquila)系列语言大模型以及CCI3.0系列、Infinity-Instruct/-MM千万指令数据集系列等重要项目,目前正专注于基于大模型的数据合成技术的研究与应用,致力于推动该领域的技术进步和创新。
OpenSeek是由北京智源人工智能研究院(BAAI)发起的开源项目,旨在联合全球开源社区,推动算法、数据和系统的协同创新,开发出超越DeepSeek的下一代模型。在项目中针对模型推理能力提升,构建并开源了大规模CoT数据集CCI-4.0-CoT。从预训练和强化学习等多个阶段分析和验证了数据对推理能力提升的效果。欢迎关注和加入开源共建大模型。
内容大纲
1. OpenSeek介绍
2. DeepSeek推理能力分析
3. 推理能力对数据提出的挑战
4. 如何构建大规模推理数据
5. 如何验证推理能力提升
6. 实验和分析
7. 总结
听众收益
1. 如何提升模型推理能力
2. 如何大规模构建CoT数据集
3. 如何验证推理能力提升