专场出品人:朱金清
抖音电商、平台增长与数据智能服务端负责人
目前在抖音电商从事平台增长和电商大模型应用等数据智能的事情;曾任海致科技集团CTO和技术合伙人,负责大数据分析平台和知识图谱等平台的产品技术;曾任滴滴首席工程师,滴滴工程委员会委员,负责智能交通的大数据分析和产品研发;2011-2016年在阿里从事大数据分析和开发、MySQL/HBase分布式数据库的管理和开发;2009年毕业之后加入百度从事凤巢等广告数据库的管理调优工作;曾获得美国 TRB2019 年佳论文奖、中国 COTA2017 智慧交通年会论文奖等。
专场:支撑海量数据的大数据平台与架构
智能时代,数据的产生速度和规模呈现爆发式增长,数据已经成为推动科技进步和经济发展的重要资源。为了有效处理、存储和分析这些海量数据,大数据平台与架构的建设成为了各行业的关键需求。本专场将聚焦于支撑海量数据的大数据平台与架构,邀请几位一线大数据专家,结合自身丰富的实践经验,深入剖析大数据平台与架构的前沿技术和应用案例。

杨克特
分布式 Data Warebase - 面向AI时代的数据架构
ProtonBase 技术副总裁
ProtonBase技术副总裁,负责产品的设计和研发工作。
毕业于浙江大学计算机系,获硕士学位,具备10多年核心系统设计和研发经验。曾任阿里巴巴资深技术专家,负责过搜索引擎、资源调度、实时监控等系统的设计和研发。
具备丰富的开源经验,是 Apache Flink 和 Apache Druid 的 PMC 成员,以及Apache 软件基金会成员。
过去几年,生成式AI技术尤其是大语言模型,展现出强大的自然语言理解与推理能力,预示着通用人工智能的曙光。当前,数据作为 AI 应用的基石,本身还存在着诸多的痛点。面向未来,企业如何平衡当前数据平台的现存挑战和 AI 时代的需求,将会成为一个难题。
基于这些挑战,我们创新性的提出了Data Warebase的技术理念,以分布式事务为基石,吸收融合了数据库和大数据领域的核心技术。通过一个系统来支持实时数仓,数据湖,全文检索等数据需求,打破数据孤岛,提升业务效率。此外Data Warebase还具备灵活的扩展性,支持向量检索,特征召回等AI领域的新需求,为AI时代的智能应用提供完善的数据底座。给企业带来数智化驱动的竞争优势。

  1. 内容大纲
1. AI 时代企业数据的重要性
2. 当前数据平台的典型架构和痛点
  •     2.1 开发门槛和效率
  •     2.2 运维复杂度和系统稳定性
  •     2.3 数据延迟和不一致
3. AI 对数据平台的新需求
  •     3.1 Feature Store
  •     3.2 向量搜索
4. 分布式 Data Warebase 理念和核心技术
  •     4.1 分布式事务
  •     4.2 关系型和NoSQL融合 
  •     4.3 可扩展的类型和索引
  •     4.4 实时分析技术
5. 实践效果和展望

听众收益
  1. 1. 当前数据平台的典型问题
  2. 2. AI时代对当前数据平台的新需求和新挑战
  3. 3. 了解分布式 Data Warebase的核心技术
  4. 4. 了解Data Warebase如何解决上述问题和挑战
单元源
万亿级通用标签管理 & 应用系统设计与实践——抖音塔阁平台
字节跳动 抖音电商 研发工程师
抖音电商塔阁平台系统架构师,8年研发经验,拥有丰富的大数据与分布式计算实践经历,擅长大数据系统与高并发系统的架构设计与实现。推动抖音电商塔阁平台从0到1的搭建工作,主导整体框架设计、标签数据链路与应用以及系统稳定性与资损防控等方面的工作。目前主要负责实时标签与应用系统的研发工作。
本次分享的主要内容是围绕抖音电商发展过程中对于精细化运营能力的业务诉求与解决方案,介绍了塔阁平台的发展历程与落地实践。深入分析了海量标签系统链路上的难点与挑战,针对性地给出了从标签生产管理到应用保障各个环节的架构设计与工程实现方案。此外,本次分享还结合字节跳动的技术体系对塔阁平台的发展历程做了总结反思,对未来AI时代下的标签系统做了展望分析。

内容大纲
1. DMP系统的发展历程
    1.1 什么是DMP系统
    1.2 抖音电商发展过程中对DMP系统的诉求与解决方案
    1.3 塔阁平台在抖音电商支撑的业务场景
2. 塔阁平台的核心设计
    2.1 海量实时与离线标签数据的生产与管理
    2.2 圈选与分析系统的设计与优化
    2.3 标签应用系统的设计与落地
    2.4  平台化能力——租户体系设计与实现
    2.5 稳定性与资损防控保障体系实践与成果展示
3. 思考与规划
    3.1  塔阁平台发展过程面临的抉择
    3.2 人货场与内容四位一体的圈选与分析系统建设
    3.3 基于大模型的智能化标签系统的建设

听众收益
1. 了解抖音电商塔阁平台的发展历程与实践经验
2. 了解典型的DMP系统的设计与实现
3. 了解大规模的数据生产和应用系统的难点与解决方案
徐榜江
基于 Flink CDC 打造海量数据实时集成方案
阿里云 Flink 数据通道负责人
阿里云 Flink 数据通道负责人,Apache Flink Committer  & PMC Member, Flink CDC 开源项目负责人,专注于 Flink SQL ,Flink CDC相关技术。
数据的新鲜度直接影响了数据洞察的价值,特别是对于存储在数据库中的实时业务数据。随着实时湖仓架构的不断演进,业务数据实时入湖入仓的诉求对数据集成管道提出更高的挑战,构建实时数据管道,不仅是湖仓架构的第一站,也是推动业务决策实时高效的第一站。
Flink CDC是建立在Apache Flink上的端到端流式ETL工具,用户可以轻松地使用YAML语言构建实时数据集成管道。在此次演讲中,我将分析传统CDC 数据集成方案的缺陷和构建实时数据管道的挑战,深入探讨 Flink CDC的关键设计和实现,并分享Flink CDC如何优雅地解决这些挑战,包括Schema Evolution,整库同步,动态加表,分开分表自动合并,transform 支持。

  1. 内容大纲
  2. 1. Flink CDC 简介
    •     1.1 CDC 技术分析
    •     1.2 传统CDC 数据集成 VS Flink CDC 数据集成
    •     1.3 Flink CDC 技术优势
    •     1.4 Flink CDC 三个重要版本解读
  • 2. 为什么设计 YAML API  
    •     2.1 为数据集成用户设计的 API
    •     2.2 YAML 优缺点分析 
    •     2.3 对比 Flik SQL API 的优缺点 
    •     2.4 对比Flink Datastream API 的优缺点
  • 3. CDC YAML 核心设计及其应用场景
    •     3.1 整体架构设计
    •     3.2 Connector API 设计原则
    •     3.3 核心特性解读:Schema Evolution
    •    3.4 核心特性解读:Table Routing
    •    3.5 核心特性解读:Transform
  • 4. 开源社区与未来规划
    •    4.1 开源社区介绍
    •    4.2 未来规划

  1. 听众收益
  2. 1. 学习Flink CDC 设计背景和技术原理
  3. 2. 了解CDC YAML API的能力与优势
3. 利用Flink CDC 实现数据实时入湖入仓
4. 了解如何加入开源社区并参与社区共建
SECon组委会是由业界多位资深技术专家发起,负责组织技术指导委员会,并和委员会的专家一起挖掘全球软件工程领域的创新技术,同时依托智盟创课国内领先的人才能力提升服务供应商,组织专业的会务服务团队,全面推进会议的顺利落地,保证参会者体验。
商务合作:木子  15122643988
票务联系:马静  18513067287
E-mail:speaker@secon.com.cn 
关注SECon公众号
添加SECon小助手,获取
会议最新资讯