AI 时代的数据架构变革:构建灵活、高效、智能的数据底座
毕业于浙江大学计算机系,获硕士学位,具有丰富的核心系统设计和研发经验。2013年加入阿里巴巴,曾任高级技术专家,负责搜索引擎,交互式引擎Hologres等系统的底层设计和研发。现专注于数据库的底层存储和高可用等方面的设计和研发工作。
随着人工智能技术的飞速发展,企业数据架构正面临前所未有的挑战与机遇。传统的数据管理模式已难以应对AI对数据处理速度、存储容量、计算能力及智能化应用的高要求。本次演讲将深入探讨AI时代下数据架构的创新趋势与实践案例,聚焦如何构建灵活、高效且高度可扩展的数据架构,以应对海量数据处理、实时分析和智能决策的需求。
内容大纲
1. 从湖仓一体到实时 AI 湖仓
1.1 湖仓一体架构的演进
1.2 传统数据湖与数据仓库的局限性
1.3 如何解决数据孤岛问题,实现数据的高效管理与分析
1.4 AI 时代的湖仓架构需求
1.5 实时数据处理:AI 应用对实时数据流的需求,如实时推荐系统、实时定价等
1.6 大规模并行计算:支持生成式 AI 和大模型的训练与推理
1.7 数据流动性:如何在数据湖仓中实现高效的数据流动,支持实时特征工程
2. AI 数据架构的基础:在线特征库的关键作用
2.1 机器学习与传统 AI:离线特征库的角色
2.2 传统 AI 系统中,离线特征库的作用及其局限性
2.3 离线特征库在批处理场景中的应用,如邮件营销、用户画像等
2.4 生成式 AI 和大模型的崛起对特征工程带来的冲击
2.5 实时特征工程:生成式 AI 和大模型对实时特征提取的需求
2.6 在线特征库:如何通过在线特征库支持实时推理和实时决策
2.7 特征新鲜度:从分钟级到亚秒级的特征更新需求
3. 实时 AI 湖仓的架构特点
3.1 实时特征工程的要求与在线特征库的技术挑战
3.2 低延迟数据处理:如何在亚秒级内完成特征提取和更新
3.3 高吞吐量:支持大规模并发的实时数据处理
3.4 一致性保证:在分布式环境下如何保证数据的一致性和可靠性
4. AI 时代的数据架构变革意义
4.1 灵活性:支持多样化的数据处理需求,从批处理到实时处理
4.2 高效性:通过分布式计算和向量化执行提升数据处理性能
4.3 智能化:通过在线特征库和实时特征工程支持生成式 AI 和大模型的广泛应用
听众收益
通过本次演讲,与会者将获得构建高性能数据架构的关键洞察,助力企业在AI时代提升业务效率、加速创新进程,并实现更精准的数据价值挖掘。