大数据主流框架实践_SECon全球软件工程技术大会-橙柚科技

Apache Hudi / Kyuubi PMC member & Apache Kylin Committer. Apache Flink 贡献与布道者。T3 出行大数据平台研发负责人。前腾讯高级工程师，曾主导Flink在腾讯从0到1落地并支撑日均数十万亿的消息处理规模。

专题出品人：杨华

T3出行大数据平台研发负责人

专题：大数据主流框架实践

大数据与云原生融合、向量化/native的计算引擎、流式云原生数据、MDS (现代数据栈)、湖仓一体、流批一体。

郑平贺

T3出行基于Doris的人群管理探索与实践

在出行行业涉及到的主题主要有司机、乘客、订单，为了更好的使公司运营更精准，人群精准圈选、及时圈选便是业务核心关键。我们通过多种技术选线以及技术架构验证，选择Doris 作为我们人群管理的计算引擎。

1. T3出行的标签与人群场景介绍
2. 早期架构与问题
3. 最新架构与技术选型
4. 基于Doris流批一体方案落地实践
5. 未来规划

1. 人群管理在出行行业的应用

2. 通过Doris如何实现人群的管理

内容大纲

听众收益

多年从事湖仓建设、流批一体、数据治理、指标平台和人群管理等领域。目前在T3出行担任分析平台负责人的职务。曾多次参加业界相关技术分享，包括datafun，NJSD，DS与Kylin的Meetup等。

T3出行分析平台负责人

吴涛

拥抱实时化：RisingWave的产品理念及场景实践

随着新一代实时数据系统不断发展和推广，业内也演化出了越来越多对数据实时化的需求和诉求。RisingWave秉承的理念就是帮助各类企业轻松上手实时化，通过RisingWave的SQL流式处理引擎以及其云原生存储系统来降低使用门槛。

1. 传统架构如何做实时化转型，实时化的优势是什么
2. 企业在数据实时化过程中会遇到哪些挑战
3. RisingWave适用于哪些场景，分别提供了哪些解决方案
4. RisingWave的设计理念以及技术架构

1. 实时化能够为业务带来什么效能提升
2. 如何使用RisingWave解决各类场景问题
3. RisingWave在帮助各领域进行实时化所得到的市场洞察

内容大纲

听众收益

负责数据库内核产品需求规划，主导多个开源用户项目实施。此前任职于小米，领导团队开发Apache Pegasus，同时为该项目的Apache PPMC。

RisingWave产品经理

王蕴博

ByConity在面向海量数据的用户分析系统上的实践

由于业务的快速发展，数据规模变得越来越巨大。在使用传统的ClickHouse集群已经不能满足业务需求，原因是ClickHouse是基于Shared-Nothing的架构，每个节点是独立的，不会共享存储资源等，因而计算资源和存储资源是紧耦合的，导致如下问题：

1. 扩缩容成本变高，且会涉及到数据迁移，使我们不能实时按需的扩缩容，而且会导致资源的浪费，成本不可控；

2. 紧耦合的架构会导致多租户在共享集群环境相互影响，导致用户查询相互影响；

3. 由于集群上节点的读写在同一个节点完成，导致读写相互影响；

4. 在复杂查询上例如多表Join等操作的性能支持并不是很好，无法满足用户查询多样化的需求。ByConity探索一种完全的存算分离架构，成为完全的云原生数仓引擎。

首先，做ByConity的整体介绍，包括ByConity存算分离架构技术原理，以及多个关键功能特性，如计算存储分离、弹性扩缩容、多租户资源隔离和数据读写的强一致性等，和ByConity在查询性能上做了哪些优化，包括如列存储、向量化执行、MPP执行、查询优化等；然后以一个面向海量数据的用户分析系统的实践案例讲解，包括业务的背景、业务的查询场景、业务的数据规模体量等，以及在使用ClickHouse集群遇到的具体问题进行详细的分析，再到业务迁移前的技术选型对比；最后从用户分析系统整体切换到ByConity后，业务收益的角度讲，ByConity解决了哪些问题，以及整体性能指标分析，包括查询性能指标、运维成本、扩缩容、数据一致性等的具体收益。

通过本次演讲听众可以详细的了解存算分离的云原生数仓引擎的架构原理，同时了解在查询性能上具体优化的方法分享。同时本演讲也适合在类似业务场景中遇到相似问题的企业大数据团队，在做技术选型上提供了具体的实践经验，让这些企业少走弯路。

内容大纲

听众收益

字节开源技术布道师，前腾讯开源联盟委员、前滴滴开源办公室负责人，长期专注于数据库、云原生、DevOps等技术方向，目前负责 ByConity 的技术布道，是 ByConity 开源社区的 maintainer 之一，长期的开源贡献者，同时也是CCF开源发展委员会执行委员、CCF GitLink核心贡献者、CCF GLCC发起人。

字节跳动开源技术布道师

曹江

大数据下非结构化存储系统性能优化

存储软件是现代计算机系统中不可或缺的组成部分，对于数据密集型应用和人工智能应用来说，其重要性不言而喻。性能是存储系统的核心指标，因此在存储系统的设计和优化中，需要综合考虑硬件、软件等多方面因素。同时，随着硬件技术的发展，存储系统的性能瓶颈和软件架构也在不断变化，因此需要不断关注最新技术趋势。本文作者近年来一直致力于存储系统性能优化的工作，希望通过分享自己的经验和理解，为大家提供一些有益的参考和帮助。

戴尔科技集团技术专家(Technical Staff)，致力于分布式存储产品的前沿研发工作。目前，其专注于存储引擎架构和存储系统端对端的性能优化设计, 在应对分布式存储系统的复杂性和挑战方面有着丰富经验。

戴尔科技集团技术专家 Technical Staff

SECon组委会是由业界多位资深技术专家发起，负责组织技术指导委员会，并和委员会的专家一起挖掘全球软件工程领域的创新技术，同时依托智盟创课国内领先的人才能力提升服务供应商，组织专业的会务服务团队，全面推进会议的顺利落地，保证参会者体验。

商务合作：木子 15122643988

票务联系：丽媛 18600050529

E-mail：speaker@secon.com.cn

关注SECon公众号

添加SECon小助手，获取

会议最新资讯

免费领取大会两天PPT

点击领取

津ICP备2023002500号