专场出品人:赵翰 
腾讯 腾讯云代码助手模型后台与推理负责人
腾讯云代码助手大模型后台与推理方向的负责人。核心职责是构建高可用、低延迟的模型服务架构,并优化GPU推理效能,为开发者提供高效的智能编码体验。
在架构层面,主导设计了代码助手的模型后台服务(包含模型路由调度、异构框架请求/响应标准化适配),以及模型推理API。通过统一接口抽象,无缝兼容多种推理引擎,显著降低接入成本。针对GPU资源瓶颈,专注于极致性能优化,主导推进量化、prefix caching等技术的落地,大幅降低推理延迟,并提升吞吐量,显著降低单位成本,同时为用户提供更加极致的用户体验。
专场:大模型高效推理与部署优化 
在人工智能技术飞速发展的当下,大模型已成为推动各行业智能化升级的关键力量。然而,随着模型规模的不断扩大,如何实现高效推理与部署优化成为了亟待解决的难题。本专场以“大模型高效推理与部署优化”为主题,旨在共同探讨如何通过优化架构设计、提升推理效率、降低资源消耗以及增强系统可靠性,推动大模型技术的落地应用。无论是支付风控、金融安全,还是通用的后台设计与推理优化,我们都将深入剖析其核心问题,分享前沿技术与实践经验,助力企业在大模型时代实现技术突破与业务增长,构建更具竞争力的智能应用生态。
胡佳男
构建可扩展且高可靠的 eBay 支付风控 MLOps 平台
eBay 高级技术专家
现任 eBay 高级技术专家,在 IT 和金融领域拥有超过 10 年的研发经验,曾先后就职于陆金所等知名互联网金融公司,积累了深厚的技术与业务实践经验。目前专注于互联网金融领域的风控系统架构设计与研发,以及 MLOps的落地实施,同时在风控 AI 模型开发方面拥有丰富的实战经验。此外,还参与编写了专业书籍《并行计算与程序设计》,对高性能计算与程序设计有深入的研究和实践。
在现代互联网金融支付风控场景中,AI模型的高效管理与稳定运维对于应对复杂的风险挑战至关重要。过去三年,我们团队从零开始为 eBay 支付风控业务构建了一套可扩展且高可靠的 MLOps 平台。该平台实现了 AI 模型在风控系统中的高效管理、自动化部署、无缝集成和稳定运维,显著提升了模型生产化效率,并为复杂支付场景中的风险管理提供了强有力的支撑。
本次分享将全面解析该平台的系统架构设计与关键技术实现,重点探讨模型训练与部署的自动化流程优化、风险控制场景下的工程化挑战,以及平台研发过程中积累的宝贵经验与最佳实践,助力推动金融风控领域的技术创新。

内容大纲
1. AI模型生产化面临的挑战和痛点
    1.1 AI模型生命周期全景解析
    1..2 挑战剖析和痛点分析
2. 元数据驱动理念和模型端到端治理的实践
    2.1 元数据驱动的核心思想
    2.2 减少协作摩擦的实践
    2.3 模型说明书实现端到端的治理赋能
3. MLOps平台设计与实现
    3.1 MLOps平台总体架构概览
    3.2 模型在线推理架构
    3.3 模型表示层设计
    3.4 模型仿真平台架构
    3.5 模型全链路监控架构
4. 反思与总结

听众收益
1. 深入理解AI模型生产化的挑战与解决方案
2. 掌握元数据驱动和端到端治理的方法论
3. 获得MLOps平台设计与实现的宝贵经验

赵翰
大模型后台设计与模型推理优化
腾讯 腾讯云代码助手模型后台与推理负责人
腾讯云代码助手大模型后台与推理方向的负责人。核心职责是构建高可用、低延迟的模型服务架构,并优化GPU推理效能,为开发者提供高效的智能编码体验。
在架构层面,主导设计了代码助手的模型后台服务(包含模型路由调度、异构框架请求/响应标准化适配),以及模型推理API。通过统一接口抽象,无缝兼容多种推理引擎,显著降低接入成本。针对GPU资源瓶颈,专注于极致性能优化,主导推进量化、prefix caching等技术的落地,大幅降低推理延迟,并提升吞吐量,显著降低单位成本,同时为用户提供更加极致的用户体验。

大模型产品的基础架构遵循经典服务分层设计,核心组件包括前端交互层、后端服务层及模型调用接口(API)。后端服务核心职责涵盖模型路由调度,限流策略、安全审核、异构框架请求/响应标准化适配等。
鉴于 GPU 资源成本高昂,最大化其利用率是模型推理优化的核心目标。优化聚焦于两个关键指标:延迟(Latency)和吞吐量(Throughput)。
量化(Quantization) 是实现高效推理最具成本效益的关键技术。其核心在于降低模型权重(Weight)、激活值(Activation)及键值缓存(KV Cache)等组件的数值精度。除此之外,还有 Prefix Caching 缓存技术,以及 PD 分离等手段,来进一步降低推理延迟,并节省 GPU 资源。

内容大纲
1. 模型后台系统设计
    1.1 模型路由的设计
    1.2 prompt 拼接与安全过滤
    1.3 多推理引擎接口兼容
2. 推理优化
    2.1 量化技术落地实践
    2.2 缓存技术落地实践
3. 指标看板建设
    3.1 指标采集与聚合
    3.2 看板建设与维护 

庞士冠
大模型推理原理与部署优化
华为 大模型部署工程师
22年硕士毕业加入华为云PaaS服务产品部,23年初开始从事大模型高效推理和部署优化相关工作,参与公司内多项大模型推理优化项目,熟悉多项推理优化算法;基于昇腾全栈,设计开发了华为AI辅助内部研发项目的推理平台,优化了推理成本xx%,有效支撑公司内部每日千万级调用量
以大模型推理原理与部署优化为主题,首先介绍大模型推理基础原理,接着介绍大模型推理面临的困难和挑战;介绍业界常用的推理优化手段;介绍华为内部基于昇腾硬件的部署落地实践

内容大纲
1. 大模型推理原理基础
    1.1 大模型推理基本概念与挑战
2. 大模型推理关键技术&优化策略
    2.1 推理框架层面优化
    2.2 系统层面优化
3. 部署优化实践与案例
    3.1 大模型部署优化案例分析

听众受益
1. 可以了解大模型推理原理
2. 了解基本的推理优化手段
3. 通过实际案例分析,获取可复用的实践经验

SECon组委会是由业界多位资深技术专家发起,负责组织技术指导委员会,并和委员会的专家一起挖掘全球软件工程领域的创新技术,同时依托智盟创课国内领先的人才能力提升服务供应商,组织专业的会务服务团队,全面推进会议的顺利落地,保证参会者体验。
服务总线:400-183-9980
商务合作:151-2264-3988  木子  
票务联系:186-0005-0529  丽媛  
E-mail:speaker@secon.com.cn 
关注SECon公众号
添加SECon小助手,获取
会议最新资讯