专场出品人:
......
......
专场:AI 时代的数据架构 
.......


丁远普
基于Daft、Lance、豆包大模型 构建多模态AI数据湖
火山引擎 AI数据湖研发负责人
拥有超过 10 年的大数据 B 端产品研发经验,当前负责火山引擎 EMR(开源大数据平台)、LAS(AI 数据湖服务)产品的研发工作。自 2023 年起开展 Data for AI 转型探索,在应对 AI 时代数据基建需求变更方面经验丰富。在结构化数据到多模态数据的管理、处理、存储,以及预训练、后训练、推理、AI 应用等方面,具备多个行业的落地实践经验。
AI 时代多模态数据的爆发使传统数据湖陷入存储低效、计算割裂、协同不足的困境。本主题聚焦 “计算 - 存储 - 模型” 三位一体的解决方案:以 Daft 为湖计算引擎,依托 Ray 实现单机到分布式的无缝扩展,通过延迟计算与 CPU/GPU 异构调度,统一处理结构化与图文音视频等多模态数据,打破大数据与 AI 团队协作壁垒;以 Lance 为湖存储核心,通过列式存储进行高效数据压缩、实现大小列统一管理与 schema 零拷贝变更,解决 IO 放大问题;豆包大模型则作为智能中枢,通过 Daft 的插件化接口接入,实现多模态数据的理解、向量化与推理加速,支撑从数据清洗到模型训练的全链路闭环,为 AI 数据基础设施提供全新范式。

内容大纲
1. 多模态时代:传统数据湖的现实困境
    1.1 多模态数据爆发的行业现状
    1.2 传统数据湖的三大核心痛点
2. 三位一体架构:多模态 AI 数据湖的核心方案
    2.1 架构设计逻辑:“计算 - 存储 - 模型” 协同闭环
    2.2 关键组件 1:Daft 湖计算引擎
    2.3 关键组件 2:Lance 湖存储核心
    2.4 关键组件 3:豆包大模型智能中枢
3. 实践落地:两大典型场景的应用成效
    3.1 自动驾驶场景
    3.2 LLM 图文处理场景
4. 方案核心价值:重构 AI 数据基础设施
    4.1 效率价值:存储 / 计算 / 推理全链路性能提升
    4.2 协作价值:打通大数据与 AI 团队工作流
    4.3 扩展价值:支持多行业多模态场景快速适配
5. 未来展望:多模态 AI 数据湖的迭代方向
    5.1 技术迭代
    5.2 生态构建

听众受益
1. 明晰多模态数据湖痛点解法:快速掌握传统数据湖存储低效、计算割裂等问题的应对思路,为优化现有数据基础设施提供方向。
2. 掌握三位一体架构逻辑:深入理解 Daft、Lance、豆包大模型的协同机制,明晰各组件核心能力与集成方式,构建技术认知体系。
3. 获取场景化落地经验:借鉴自动驾驶、LLM 图文处理场景的实施路径与成效,可直接参考适配自身行业的多模态数据处理方案。
4. 找到效率与协作提升路径:了解如何通过方案实现存储 / 计算 / 推理全链路提效,以及打通大数据与 AI 团队工作流的方法。
5. 把握未来发展方向:提前知晓多模态数据湖的技术迭代、场景拓展及生态构建趋势,助力业务长期布局与创新。

敬请期待
敬请期待
......
......
......
SECon组委会是由业界多位资深技术专家发起,负责组织技术指导委员会,并和委员会的专家一起挖掘全球软件工程领域的创新技术,同时依托智盟创课国内领先的人才能力提升服务供应商,组织专业的会务服务团队,全面推进会议的顺利落地,保证参会者体验。
服务总线:400-183-9980
商务合作:151-2264-3988  木子  
票务联系:185-1306-7287  马静  
E-mail:speaker@secon.com.cn 
关注SECon公众号
添加SECon小助手,获取
会议最新资讯