专场出品人:孙佰贵
树根科技 首席科学家
负责具身智能、AIGC、大模型应用等前沿技术方向。10+年人工智能经验,原达摩院&通义实验室创始早期成员,硕士毕业于浙江大学计算机科学与技术学院。深入AI领域全栈,致力于商业、学术、开源的全面构建。AI产业破局者:曾参与淘宝搜索、拍立淘、内容审核、人脸识别、魔搭社区等多项亿级规模人工智能应用。AI青年科学家:累计发表30+篇国际顶会及期刊,2.2K+ 引用。AI开源布道师:曾获阿里开源先锋人物,9.5K+ Star。
专场:具身和空间智能
在新一轮通用人工智能时代,广义的机器人将会是最大的商业赛道,而具身智能无疑是该赛道的基石之一。具身智能通常是指智能体依托自身的身体形态,通过感知、运动和与环境的交互来获得和展现智能的能力。它强调智能并非仅仅源于大脑或算法,而是产生于“身体-环境”之间的交互过程,实现从感知、认知到决策、执行的完整闭环。本专场将深入探讨多模态感知与语义理解、多模态深度推理、物理世界建模与世界模型(World Model),并重点关注 Vision-Language-Action (VLA) 框架在具身智能中的发展。同时,我们将聚焦强化学习与模仿学习等训练范式如何推动具身智能在复杂环境中的自主性与泛化能力。专场将汇聚国内外具身智能与 VLA 领域的专家学者与产业先锋,分享其在工业自动化、服务机器人、智能制造、智能家居、虚拟/增强现实等场景的最新突破与实践经验,共同探讨规模化落地的挑战与机遇,并展望具身智能的未来发展图景。
林爽
家居行业SaaS软件的AI落地技术实践
三维家 前端首席业务架构师
毕业于北京理工大学,获硕士学位,拥有10余年3D图形、AI算法相关领域技术经验。2021年加入三维家,参与和主导了核心产品3D云设计软件的多次大版本升级迭代。现任三维家产品技术中心前端首席业务架构师,3D前端技术委员会主席。目前专注于垂类SaaS与AI的落地结合方向上的探索。
在垂类SaaS中落地AI的关键在于将通用大模型与行业Know-how深度对齐。本次分享将结合家居行业的AI落地实战案例,解析如何跨越从技术验证到规模商用的鸿沟。重点探讨三大核心实践:利用提示词&RAG技术构建领域知识大脑、通过高效微调增强垂直能力以及LLM与工作流的深度结合。同时,分享在工程化过程中,如何平衡成本、性能与安全,打造真正创造业务价值的可靠AI功能。

内容大纲
1. AI赋能家居行业垂类SaaS
2. 家居行业落地AI面临的挑战
3. 技术细节与实践案例
4. 未来趋势与发展方向展望

听众收益

了解AI真实在垂类SaaS软件落地的技术实战。
刘洋
通用具身智能的全新范式为工业赋能
耘创新实验室 具身智能组长
现任耘创新实验室具身智能组长,负责焊接机器人与无人装载机的 VLA 研发,已在巡缝等场景完成落地;曾任阿里巴巴达摩院/通义实验室算法专家(2020–2024),主导算法在通义万相、开放视觉平台、钉钉考勤机、ModelScope 等产品化。研究方向涵盖人脸、AIGC、视觉基础、VLA 与世界模型,发表顶会/顶刊论文 20+(一作 10+)、引用 1500+、GitHub Star 9.5k+;获 WiderFace 与 VOT 全球冠军,入选 BenchCouncil Open100。自 0 到 1 组建具身团队,沉淀数据治理、评测与端到端训练体系。
随着具身智能走向应用,训练与测试所依赖的数据日益成为关键。一方面,传统数据集在动作层面的细粒度严重不足,导致模型难以准确识别动作内容与意图;另一方面,模型泛化能力薄弱,仍高度依赖域内(in-domain)数据,难以支撑“开箱即用”的落地愿景。因此,VLA 2.0 将在数据与训练范式上重新定义这一领域,具体方向与方案将在本次会议中介绍。 
案例介绍:
1. 重起臂架盖面进入试生产阶段,实现 1 控 3,一次成功率从90%提升到98%。单工位每天节省 750 费用,年化节省 20 万+。
2. 具身仿真,预计能降低 70%真实数据采集成本,百万clips 达千万级美金价值。
3. 基于原视频做延伸推理生成的世界模型,预计能减少50% gap,进一步减少真实数据成本。 

内容大纲
1. VLA 战略背景
   1.1 什么是 VLA
    1.2 VLA 领域的发展 + 头部机构的介绍
    1.3 VLA 对工业的意义
2. 规模化落地的黄金组合:
    2.1 数据集的卡点:缺乏关于具身的细粒度描述
    2.2 训练范式的卡点:大小脑的不对齐
3. 平台与训练范式建设
    3.1 具身数据集:符合具身智能训练的数据集
    3.2 训练范式的创新:大小脑之间的融合
4. 案例展示
    4.1 焊接
    4.2 装载机
5. 未来展望

听众收益
1. 理解 VLA 核心概念与产业价值把握发展脉络
2. 明确数据与训练常见卡点建立问题诊断与评估框架
3. 借鉴大小脑协同与平台化实践形成可迁移的落地思路
郑清萍
多模态大模型驱动的空间智能
浙江大学 博士后
现为浙江大学博士后,博士毕业于西北工业大学,硕士毕业于帝国理工学院。研究方向为空间智能、图像与视频分割、文图生成与图像视频超分辨率。近三年在CVPR等国际顶级会议和期刊上发表论文十余篇,其中以第一作者发表论文6篇。目前主持国家自然科学基金青年基金(C类)和国资计划(C类)各一项,并参与浙江省“尖兵领雁”科技攻关计划项目。曾在IBM任职三年多,担任全栈工程师,参与微服务平台、知识图谱、智能邮件及智能政务等项目的研发工作。目前专注于空间智能测度方向的研究。
随着 VLM 与具身智能加速融合,如何把“看见”转化为“可理解、可操作”的空间表达正成为核心议题。一方面,应用场景从家居到城市不断拓展,对找物导航、意图到动作的对齐与多视角时序理解提出更高要求;另一方面,方法谱系由2D-LLM、3D-LLM 到 Video-LLM 并行演进,亟需清晰的协同框架与接口。基于此,本次分享将简要回顾空间智能的发展与定义,结合家居/具身/城市三类场景梳理关键能力,并对比三种框架各自优势与协同方式,最后给出务实的落地前景与后续方向。 
案例介绍:
1. 任务理解更稳且与指令更一致跨场景跨设备的泛化与鲁棒性同步提升
2. 研运链路更顺畅 2D/3D/视频统一接口便于集成与扩展
3. 运维更可观测可回放可灰度为规模化落地与合规治理夯实基础

内容大纲
1. VLM 空间智能背景
    1.1 空间智能的发展:从感知到理解,再到可操作的空间表达
    1.2 空间智能的定义:以视觉-语言建模空间关系、约束与可达性的系统能力
2. 视觉空间智能的关键场景
    2.1 家居场景:找物、导航与语义交互的基础能力
    2.2 具身场景:从指令到动作的意图对齐与流程分解
    2.3 城市场景:多视角、多时序下的目标关联与事件理解
3. 空间智能算法框架
    3.1 基于 Video-LLM:长时序视频理解与关键片段/行为抽取
    3.2 基于 3D-LLM:三维语义对齐、三维落点与路径约束对接
    3.3 基于 2D-LLM:轻量识别与开放词汇的前端能力
4. 落地前景与未来展望

听众收益
1. 系统理解 VLM 空间智能的概念边界与发展脉络形成共同语言
2. 把握家居具身城市三类场景的共性能力与差异化需求建立问题拆解框架
3. 形成从2D Video 3D-LLM到工程落地的通用思路覆盖数据与指标集成与治理迭代演进路径
SECon组委会是由业界多位资深技术专家发起,负责组织技术指导委员会,并和委员会的专家一起挖掘全球软件工程领域的创新技术,同时依托智盟创课国内领先的人才能力提升服务供应商,组织专业的会务服务团队,全面推进会议的顺利落地,保证参会者体验。
服务总线:400-183-9980
商务合作:151-2264-3988  木子  
票务联系:185-1306-7287  马静  
E-mail:speaker@secon.com.cn 
关注SECon公众号
添加SECon小助手,获取
会议最新资讯