现为浙江大学博士后,博士毕业于西北工业大学,硕士毕业于帝国理工学院。研究方向为空间智能、图像与视频分割、文图生成与图像视频超分辨率。近三年在CVPR等国际顶级会议和期刊上发表论文十余篇,其中以第一作者发表论文6篇。目前主持国家自然科学基金青年基金(C类)和国资计划(C类)各一项,并参与浙江省“尖兵领雁”科技攻关计划项目。曾在IBM任职三年多,担任全栈工程师,参与微服务平台、知识图谱、智能邮件及智能政务等项目的研发工作。目前专注于空间智能测度方向的研究。
随着 VLM 与具身智能加速融合,如何把“看见”转化为“可理解、可操作”的空间表达正成为核心议题。一方面,应用场景从家居到城市不断拓展,对找物导航、意图到动作的对齐与多视角时序理解提出更高要求;另一方面,方法谱系由2D-LLM、3D-LLM 到 Video-LLM 并行演进,亟需清晰的协同框架与接口。基于此,本次分享将简要回顾空间智能的发展与定义,结合家居/具身/城市三类场景梳理关键能力,并对比三种框架各自优势与协同方式,最后给出务实的落地前景与后续方向。
案例介绍:
1. 任务理解更稳且与指令更一致跨场景跨设备的泛化与鲁棒性同步提升
2. 研运链路更顺畅 2D/3D/视频统一接口便于集成与扩展
3. 运维更可观测可回放可灰度为规模化落地与合规治理夯实基础
内容大纲
1. VLM 空间智能背景
1.1 空间智能的发展:从感知到理解,再到可操作的空间表达
1.2 空间智能的定义:以视觉-语言建模空间关系、约束与可达性的系统能力
2. 视觉空间智能的关键场景
2.1 家居场景:找物、导航与语义交互的基础能力
2.2 具身场景:从指令到动作的意图对齐与流程分解
2.3 城市场景:多视角、多时序下的目标关联与事件理解
3. 空间智能算法框架
3.1 基于 Video-LLM:长时序视频理解与关键片段/行为抽取
3.2 基于 3D-LLM:三维语义对齐、三维落点与路径约束对接
3.3 基于 2D-LLM:轻量识别与开放词汇的前端能力
4. 落地前景与未来展望
听众收益
1. 系统理解 VLM 空间智能的概念边界与发展脉络形成共同语言
2. 把握家居具身城市三类场景的共性能力与差异化需求建立问题拆解框架
3. 形成从2D Video 3D-LLM到工程落地的通用思路覆盖数据与指标集成与治理迭代演进路径