多模态大模型应用实践-2024SZ_SECon全球软件工程技术大会-橙柚科技

首页

大会日程

专题论坛

议题提交

参会须知&酒店

参会购票

往届嘉宾

专场出品人：张飞彪

无界AI 联合创始人兼CTO

无界AI 联合创始人兼CTO，主要负责无界AI的产品研发和模型训练工作，同时分管矩池云业务。
无界AI 定位为“最懂中国风的AIGC创作平台”，专注在多模态生成领域，致力于将AI生成艺术做到极致，通过自研AIGC行业模型，为国内用户提供更加简洁易用、模型丰富的AIGC创作工具，同时为政企客户提供一站式产品、模型、算力AIGC解决方案。
毕业于数学系国家理科基地班，十五年软件研发和技术管理经验，曾任字节跳动和小红书技术总监，技术委员会和晋升委员会委员，负责过字节跳动创意生态部门、抖音电商上海研发中心，以及抖音电商独立版（抖音盒子）、抖音音乐、小红书等产品的研发和管理工作。

专场：多模态大模型应用实践

本专场旨在探索多模态大模型在电商、营销、设计、视频创作、动画制作、3D建模、数字化身、音频处理以及文本分析等领域的应用，致力于展现多模态大模型技术在实际业务场景中的应用，以及它们如何帮助行业完成方案创新和实践落地。通过集中讨论多模态大模型的实际应用案例和技术挑战，我们旨在为参会者提供意见，展示如何有效融合文本、图像、视频、音频等多种数据类型，利用大模型技术推动业务解决方案的创新与实践优化。

王彬

构建生成式AI下的行业新范式

米塔碳、鲲动利CEO

现任米塔碳、鲲动利智能科技有限公司CEO，浙江大学特聘研究员（正高）
毕业于浙江大学，原约翰霍普金斯大学（（Applied Physics Lab））助理研究员
浙江省科技进步二等奖获得者，杭州市B类高层次人才
研究方向：计算机视觉、人工智能基础理论、预训练和自监督学习。计算机视觉顶会ACM-MM主编评委。

《构建生成式AI下的行业新范式》研究目标：以视觉为核心的多模态生成模型技术：言图深思（meta-C）
静态内容 - 语义解耦能力（可精细化控制）
动态内容 - 多条件控制（以文本生成视频模型为基础，进一步拓展控制生成的手段，极大提升视频生成的效果）
当前集合行业的进展情况：
1. 过程帧
2. 动作驱动
3. 视频风格化
4. 自动化生成视频能力（autostorying）
5. 视频特效（驱动类）
6. 视频特效: cinemagraph（精准指向类）

听众收益

1. 分享人工智能技术的发展历程、底层逻辑、主要算法以及产业应用前景；
2. 为业界提供更广泛且具深度的议题研讨；
3. 助推了产业链各企业之间的互动与合作。

孙超

eBay生成式AI - 平台架构与AI能力输出实践

eBay 技术专家

本科、硕士均毕业于上海交通大学，现为eBay机器学习平台技术专家，负责公司智能预估平台模型部署效率、在线性能、用户迭代体验等优化工作，同时也负责生成式AI能力在eBay业务场景落地的后端架构设计和研发，与业务团队合作快速推动了生成式AI在商品推荐、营销等场景落地。曾就职于百度，先后负责大商业模型工程、联盟检索端、知识图谱等工作，对高并发、大数据背景下的在离线架构设计和服务治理都有丰富经验。

在生成式AI高速发展的今天，eBay也在积极探索这股创新热潮，旨在为电商场景注入新的活力。无论是在个性化购物推荐、还是精准营销策略场景，eBay机器学习平台都积极与业务团队合作，共同打造从基础服务到业务服务的架构通路，提速生成式应用的落地上市时间(Time To Market)。

本次主题演讲，我们将从生成式AI 落地场景的产品需求出发，详细描述我们基于LLM RAG 技术思路提供的平台解决方案(AI Service) 和业务层面加速产品迭代的框架能力(Module Orchestration)，以及新型模型场景（LLM/Stable Diffusion/Agent）下的平台架构支撑（模型存储、部署和推理服务及优化）。这些工作几乎支持了eBay所有生成式AI应用场景，为公司在电商体验探索中打下了坚实的基础。

听众收益
产品落地：了解eBay最新的生成式AI落地成果
平台架构：了解eBay机器学习平台在支持LLM/Stable Diffusion以及Agent应用方面的平台升级
业务架构：了解eBay机器学习平台在整合基础能力输出、对接业务所打造的在离线服务架构实践

丁珏

视觉大模型前沿探索与应用实践

无界AI AI算法专家

现任无界 AI 算法专家，承担过无界 AI 服装、汉服、私人影像、纹样、游戏、壁纸等众多行业模型的研发工作，同时负责了人像写真、个性相机、AI 作画机、视频生成等技术项目的成功落地。

控制专业硕士毕业，曾于多家互联网大厂、AI 独角兽企业、研究院等机构中任职，具备丰富的 AI 项目研究及落地实践经验，多次荣获 CVPR 等顶级会议的 AI 竞赛冠军，且拥有多项专利及论文成果。

自2022年迈入AIGC时代起，视觉大模型在全球各行业各领域掀起了新一轮的AI热潮，各大科技公司积极跟进，发力于视觉大模型的研究与落地应用，持续涌现了丰富多样的图像和视频生成应用。

在本次分享中，我会带你知晓以视觉大模型为核心的主流图像生成与视频生成技术，涵盖其落地成果以及前沿探索的进展情况。助力你依据自身的需求与构想，训练专属于自己的视觉大模型，收获工业界一线的训练经验，避免踩坑陷入误区。更深入地，在本次分享中还会呈现视觉大模型在产业中的应用实例，例如AI写真、AI绘画机以及视频生成等“明星”案例。最后，让我们一同展望未来，坚信视觉大模型的端侧部署和性能提升会为用户带来更为便捷易用、更加高效的AIGC创作工具与服务。

内容大纲

1. 视觉大模型的进化之路

1.1 图像生成技术的研究成果与落地实践

1.2 视频生成技术的前沿探索

2. 视觉大模型训练解析

2.1 视觉大模型训练流程全解析

2.2 Stable Diffusion训练经验之谈

2.3 视觉大模型训练注意事项及避坑要点

3. 视觉大模型的产业应用实例

3.1 AI 写真的具体应用展示

3.2 AI 绘画机的实际应用分析

3.3 视频生成的经典案例呈现

4. 未来发展展望

4.1 视觉大模型端侧部署的前景与趋势

4.2 视觉大模型性能提升的思路与方向

听众收益

1. 知悉最前沿的图像和视频生成技术

2. 了解视觉大模型的训练技巧及其关键要点

3. 交流视觉大模型的产业应用与实践经验

周王春澍

可“自我进化”的 AI 智能体（AI Agent）系统

波形智能联合创始人兼CTO

波形智能联合创始人兼CTO，主要负责波形智能的产品研发，算法迭代，以及模型训练。
波形智能是一家专注以网文和短故事为主的创意写作垂域的大模型公司。专注在长文本生成领域，通过自研的无限长文本生成算法“RecurrentGPT”以及创意写作垂域大模型“Weaver”，为国内网文和短故事作者提供简洁易用且高效的写作辅助工具“蛙蛙写作”。同时为政企客户提供垂域大模型应用训练、开发、和部署的端到端的解决方案。

本科和硕士毕业于北航中法工程师学院，博士曾就读于ETH Zurich，专注NLP和机器学习方向，在NeurIPS/ICML/ICLR/ACL/EMNLP/NAACL等机器学习和自然语言处理会议中发表文章40余篇，同时担任这些会议的审稿人, 以及ARR/*ACL的领域主席(Action Editor / Area Chair)，谷歌学术总引用量1500+，并于2022获得百度奖学金。曾任字节跳动AI Lab Research Scientist。曾在MSRA/谷歌/字节跳动AI Lab/AI2等机构实习和访问。

过去的一年内，基于大语言模型的AI Agent引起了学术界和工业界的广泛关注。目前业界各个团队也纷纷发布和开源了各个能够支持定制和调教AI Agent的框架。目前业界对于Agent的研究和开发还处于“model-centric”的阶段，即要求开发和定制AI Agent的研究者或者工程师通过自己对大模型和应用场景的了解，使用少数测试用例对AI Agent进行复杂的工程调优。本主题分享我们对AI Agent的研究和开发/训练从“model-centric”到“data-centric”的转变的一个新的探索。具体来说，我们的方法受连接主义AI中基本的神经网络学习算法——反向传播和梯度下降的启发，将AI Agent视作由Prompt和工具调用连接而成的“Symbolic Network”，将自然语言和工具代码视作模型Weight，使用大模型，基于自然语言模拟AI Agent的Loss和Gradient，来基于训练数据对Agent权重，即prompt和工具进行调优。和机器学习领域从model-centric到data-centric的转变类似，这样的方案可以大大降低工业界定制和优化AI Agent的难度，也为学术界继续展开agent learning/optimization，以及发展data-centric的Agent研究提供了初步的探索和基础。

内容大纲
1. AI Agent简介
2. AI Agent 当前发展状况简述
3. Agent Learning 背景介绍
3.1 Prompt自动调优和
3.2 Agent优化相关介绍
3.3 此前工作的不足和限制之处
4. Symbolic Agent Learning
4.1 框架总结介绍
4.2 Agent 前向传播和损失计算
4.3 Agent 反向传播
4.4 Agent 梯度下降优化
5. 总结与展望

听众收益
1. 了解当前Agent和Agent自动优化相关研究
2. 了解新的AI Agent自动学习/优化的研究和框架

SECon组委会是由业界多位资深技术专家发起，负责组织技术指导委员会，并和委员会的专家一起挖掘全球软件工程领域的创新技术，同时依托智盟创课国内领先的人才能力提升服务供应商，组织专业的会务服务团队，全面推进会议的顺利落地，保证参会者体验。

商务合作：木子 15122643988

票务联系：丽媛 18600050529

E-mail：speaker@secon.com.cn

关注SECon公众号

添加SECon小助手，获取

会议最新资讯

免费领取大会两天PPT

点击领取

津ICP备2023002500号-3