专场出品人:郑志升
bilibili 基础架构部技术专家
10多年在大数据平台和架构相关的经验,从0到1搭建B站实时端到端的传输、计算和数据湖体系,当下聚焦于大数据底层基础架构,以及AI工程领域的建设,主要涵盖了Flink、Spark、Iceberg/HUDI,Ray等计算设施,以及AI体系的工程化。

专场:Data+AI的探索与实践
随着大数据与人工智能技术的迅猛发展,特别是深度学习的应用,我们正步入智能的时代。大数据为AI提供丰富的训练材料,而AI又赋能数据处理挖掘价值,形成“Data for AI,AI for Data”的双向促进。本次大数据专场聚焦“Data+AI的探索与实践”,我们将探讨如何通过创新技术(例如数据湖、分布式计算等)将数据高效应用于业务。期待与您共同探索Data+AI的无限潜力,分享最佳实践,推动知识共享与技术创新。
周晨程
B站视频素材库基于Ray的大规模计算加速优化与实践
bilibili 资深研发工程师
B站视频素材库工程团队负责人,参与素材库离线处理链路的重构设计及改造,从0到1引入ray引擎结合业务进行落地加速,具有多年的云原生工程平台开发经验。
在B站内部视频素材库的建设是一个大规模视频离线处理的过程,其中涉及到原片切片转码、视频video-embedding提取、ocr、asr等多个特征处理环节,需要大量计算资源。起初尝试部署常驻的计算推理服务,也尝试在spark上运行特征处理任务,但很快便遇到资源分配不灵活、服务管理成本高的问题。我们使用ray对视频处理流程进行了改造,对核心的计算环节做了并行优化,并充分利用ray serve autoscaler的能力提高了整体资源利用率。然而公司内计算资源分布在在线容器平台、混部平台、离线大数据平台等,业务多方接入成本高资源孤岛化严重,我们进一步实现了自定义的ray node provider对接各个资源平台提高了整体的任务吞吐上限。

内容大纲
1. 业务背景与痛点
2. 整体架构升级
    2.1 Ray简介
    2.2 Ray的项目优势
    2.3 引入数据湖
    2.4 联动Iceberg
3.  技术难点与挑战
    3.1 任务并行化
    3.2 推理优化
    3.3 任务弹性
    3.4 节点弹性
4. 总结与未来展望

听众收益    
1. 了解视频素材处理场景中ray的落地方式
2. 如何运用ray分布式编程简化任务流程
3. 如何运用ray来解决资源分配和提升资源利用率
俞育才
基于Ray构建高效的Data + AI计算平台
eBay AI架构师
毕业于上海交大计算系,eBay AI平台架构师。先后就职于IBM、Intel和eBay,长期专注于大数据和AI领域的工作。对大数据系统内核,向量数据库,AI基础平台都有丰富的经验。参与并主导了Intel平台上Spark的性能优化,eBay特征管理平台,推理平台以及模型训练平台的构建,并负责eBay大模型基建相关任务。
在AI应用开发中,构建一个高效的数据管道是一个普遍且关键的挑战。传统方法中,数据处理、模型训练和推理系统往往分散在不同的平台和技术栈中,这不仅增加了开发的复杂性,也降低了效率。此外,在处理大规模离线数据和实时数据流时,如何有效利用计算资源,特别是GPU资源,成为了性能提升的关键。本演讲将探讨如何利用Ray框架来构建一个统一的AI数据管道,以实现数据的快速处理和GPU利用率的最大化,同时降低开发和维护的复杂性。

内容大纲

1. AI应用中的数据处理需求
2. 构建数据处理管道的常见问题
3. 利用Ray的解决方案
    3.1 Ray框架概述
    3.2 统一数据管道的架构设计
    3.3 加速管道开发的效率
    3.4 提升GPU的利用率
4. 实际案例分析: 时尚推荐系统的数据管道实现
5. 总结与展望

听众收益

1. 理解在AI应用中构建数据管道的关键挑战和需求。
2. 学习如何利用Ray框架来构建高效、可扩展的统一数据管道。
3. 掌握在实际AI应用中实施和优化数据管道的策略和技术。
4. 了解如何通过优化GPU资源使用来提升数据处理和模型训练的性能。
史晓峰
IndustryCorpus2.0-多语种多行业预训练数据与指令数据集构建
北京智源人工智能研究院 算法研究专家
多年算法开发和研究经验,曾在头部互联网公司负责亿级产品的搜索算法的研究和应用,主要方向为搜索和多模态。近年来,专注于大模型领域,主要方向为LLM和LMM的模型行业应用和落地,涉及数据集构建,模型训练,领域适配等相关方向的研究和探索。近期主导构建了全球规模最大的多语种多行业文本预训练数据集IndustryCorpus系列和多行业指令数据集IndustryInstruction。在医疗、教育、金融,汽车等多个领域进行了模型训练和相应开源工作,相关模型和方法已投稿AAAI,相关数据和模型在推动行业模型应用和落地方面取得了显著成果,不完全统计各数据集在huggingface平台已累计70k+下载量。
本报告主要包括4个内容,一个是对IndustryCorpus2多语种多行业预训练数据的构建,作为当前规模最大,质量较高的数据集的构建方案;第二IndustryInstruction多行业指令数据集的构建,该数据填补了多个行业数据缺乏的空白,在指令数据合成,多样性提升,质量评估,多轮对话上进行了多种探索和创新性的方案,第三个是行业大模型训练,使用构建的数据集在多个行业上进行了多种方式的模型训练和效果验证,医疗领域超过当前的开源医疗模型,其他领域也领先于当前的对标数据集或取得指标提升,第四个是《AI大模型行业数据集全景扫描》的解读,通过调研和统计,分析当前数据的分布状况,为从业者和研究人员数据的分布提供全局把控,启发一段阶段之后的探索方向。

内容大纲
1. IndustryCorpus2预训练数据透视与构建方案
    1.1 为什么需要行业数据
    1.2 IndustryCorpus2数据特点
    1.3 IndustryCorpus2数据透视
    1.4 IndustryCorpus2构建方案
    1.5 多行业划分与质量提升方案
2. IndustryInstruction数据特点与构建方案
    2.1 为什么要构建行业指令数据
    2.2  IndustryInstruction数据透视
    2.3  IndustryInstruction数据构建方案
           2.3.1 数据合成
           2.3.2 数据评估和筛选
           2.3.3 数据去重
           2.3.4  数据可视化
3. 行业大模型训练与效果分析
    3.1 <医疗>领域CPT+SFT+RLHF全流程数据验证训练:CareBot
    3.2 <交通运输>领域指令数据验证训练:与现有开源数据对比
    3.3 <金融经济>领域指令数据验证训练
4.《 AI大模型行业数据集全景扫描 》解读
    4.1  概述
    4.2  行业数据匮乏
    4.3 协议许可复杂
    4.4 分布稀疏性
5. Summary and QA

听众受益
1. 行业预训练数据的构建方案
2. 行业指令数据的构建方案
3. 行业模型的训练方法和评估方法
谢宇
基于VectorDB的AI实践
腾讯云 数据库技术专家
从事数据库领域开发16年,深入理解多种数据库的技术和客户最佳实践,熟悉国内外云服务和数据产品,擅长数据库生态建设。现负责腾讯云向量数据库技术,致力于在AI时代打造非结构化数据、半结构化数据、结构化数据的数据枢纽,帮助客户挖掘更多的数据价值以取得业务成功。
随着AI应用的快速发展,向量数据库逐步脱颖而出,越来越多的企业正在或考虑使用向量数据库在企业中业务场景中落地,以发挥更大的数据价值,最终为企业起到降本增效的作用。腾讯云向量数据库团队积累了大量的客户最佳实践,在综合效果、性能、成本等方面有深刻的理解,并致力于打造最好用的向量数据库,在AI时代帮助更多的企业挖掘出更多的数据价值。

内容大纲
  • 1. VectorDB应用场景
  • 2. 基于VectorDB的AI效果提升实践
  • 3. VectorDB的技术与应用实践

钱佳丽
喜马拉雅基于大模型ChatBl实践探索
喜马拉雅 数据仓库专家
10年+数据领域架构经验,在喜马拉雅深耕企业级数据生态体系的构建与优化。精通数据仓库设计、ETL流程和数据集成技术以及创新产品体系设计。
主要成就包括:
1. 领导团队从0到1构建企业数据仓库,创立数仓设计与建设方法论,支撑每日TB级数据处理
2. 主导1NN数据产品体系构建,制定数据产品体系建设方法,显著提升数据一致性与提取效率
更专注于将数据价值转化为业务增长的核心动力。通过系统化的数据战略,致力于推动组织实现真正的数据驱动转型,为企业在数字时代保持竞争优势奠定坚实基础。
深度剖析业务痛点以及开发痛点,重点分享大数据团队在平台建设中融入AI技术,特别是在自助取数分析方向的实现路径与经验总结。

内容大纲
1. 背景介绍,数据产品现状以及用户痛点,引入喜马ChatBI
2. 喜马ChatBI介绍,产品设计与技术框架
3.  喜马ChatBI实现原理,案例介绍
4.  未来展望

听众收益
1. 喜马ChatBI技术与产品建设经验
2. 喜马ChatBI落地实践以及推广案列
SECon组委会是由业界多位资深技术专家发起,负责组织技术指导委员会,并和委员会的专家一起挖掘全球软件工程领域的创新技术,同时依托智盟创课国内领先的人才能力提升服务供应商,组织专业的会务服务团队,全面推进会议的顺利落地,保证参会者体验。
商务合作:木子  15122643988
票务联系:马静  18513067287
E-mail:speaker@secon.com.cn 
关注SECon公众号
添加SECon小助手,获取
会议最新资讯