11 Robotics 前沿雷达
更新时间:2026-05-15。前沿判断基于公开资料和官方/论文页面,后续应定期刷新。
怎么读前沿
看到一个新 robot foundation model,不要只记模型名。按这张表判断它真正贡献在哪里:
| 问题 | 为什么重要 |
|---|---|
| 数据从哪里来 | 真实机器人数据、仿真数据、人类视频和合成数据的比例决定可迁移性 |
| 动作如何表示 | action token、delta pose、joint command、flow / diffusion policy 会影响控制接口 |
| 是否跨本体 | 单一机械臂成功不等于 humanoid、mobile manipulator、双臂都能成功 |
| 是否真实机器人验证 | 仿真 benchmark 和真实部署差距很大 |
| 失败模式是什么 | 真实机器人研究最有价值的信息常在失败案例里 |
| 如何安全部署 | latency、monitor、fallback、safety filter 决定能否出实验室 |
方向 1: VLA / Robot Foundation Models
Vision-Language-Action (VLA) 模型把视觉、语言和动作统一起来,是当前 robot learning 的主战场之一。
代表线索:
- RT-2:Google DeepMind 把 web-scale VLM 能力迁移到机器人控制,强化了 VLA 范式。
- OpenVLA:推动开源 VLA,让 fine-tuning 和复现实验更容易。
- Gemini Robotics:Google DeepMind 将 Gemini 的 multimodal reasoning 扩展到 physical action,并强调 long-horizon、interactivity、dexterity、多本体。
核心研究问题:
- Language grounding 是否真的绑定到可执行动作。
- 动作空间如何统一不同机器人。
- 模型是否能从少量 post-training 数据适配新任务。
- 高层 reasoning 与低层 control 如何分工。
学习抓手:
VLM grounding -> action representation -> robot data -> policy fine-tuning -> safety wrapper
方向 2: Cross-Embodiment Data
Robotics 的大问题是数据不像文本和图像那样天然海量。Open X-Embodiment 这类工作试图把不同机器人、不同实验室、不同任务的数据统一起来。
为什么重要:
- 单机器人数据太少,泛化很弱。
- 不同机器人有不同 action space、camera setup、control frequency。
- 数据标准化是 robot foundation model 的前提。
关键问题:
- 如何对齐不同 embodiment 的动作。
- 如何处理质量不一的 demonstration。
- 如何评估跨机器人迁移,而不是只在单一 benchmark 上涨分。
学习抓手:
dataset schema -> embodiment normalization -> policy pretraining -> task-specific adaptation
方向 3: Diffusion / Flow Policies
Diffusion Policy 之后,很多 manipulation 策略从单步回归转向生成一段动作序列。这样更适合多模态动作和接触丰富任务。
为什么重要:
- 同一个观察下可能有多种合理动作。
- 单步动作预测容易抖动。
- Receding horizon action generation 可以和控制闭环结合。
关键问题:
- 生成动作序列的延迟是否可接受。
- 如何保证动作满足安全和动力学约束。
- 如何处理长时程任务中的错误恢复。
学习抓手:
behavior cloning -> sequence modeling -> diffusion policy -> receding horizon execution
方向 4: Open Robot Learning Stack
LeRobot 等开放工具链把数据采集、数据格式、训练、评估和部署打通,降低了做真实 robot learning 的门槛。
为什么重要:
- Robotics 过去常被封闭硬件和私有数据割裂。
- 开源工具能让小团队复现和比较方法。
- 数据采集 pipeline 和训练代码一样重要。
关注点:
- 支持哪些硬件。
- 数据格式是否可迁移。
- 是否支持异步 inference 和真实控制频率。
- 是否能与 ROS 2 / robot middleware 配合。
学习抓手:
teleoperation -> dataset -> training -> evaluation -> deployment
方向 5: Humanoid Foundation Models
Humanoid 是前沿热点,但也最容易被宣传噪音淹没。GR00T N1 这类工作强调 humanoid reasoning、general skills、synthetic data 和 post-training。
关键判断:
- 是否只展示 demo,还是有可复现实验。
- 是否跨任务、跨环境、跨机器人。
- 是否能处理摔倒、接触失败、人类靠近等安全问题。
- 是否有真实工作流价值,而不只是展示动作。
学习抓手:
whole-body control -> locomotion -> manipulation -> VLA reasoning -> safety monitor
方向 6: Safety, On-Device, Runtime Systems
机器人前沿不只是模型越来越大。真正部署时,on-device inference、低延迟、安全过滤、日志和故障恢复会成为核心能力。
关键问题:
- 模型推理延迟是否适配控制频率。
- 网络断开时机器人如何降级。
- 是否有 runtime monitor 发现危险状态。
- 高层模型输出是否经过 planner / controller / safety filter。
学习抓手:
model output -> constraint check -> controller -> monitor -> fallback
研究雷达
建议你把前沿按这四个象限分类:
| 象限 | 例子 | 学习策略 |
|---|---|---|
| 近期可做 | Diffusion Policy 小复现、LeRobot 数据流程 | 做项目 |
| 中期深入 | VLA fine-tuning、cross-embodiment dataset | 读论文 + 小实验 |
| 长期研究 | generalist robot policy、humanoid foundation model | 跟踪论文和系统 |
| 工程底座 | ROS 2、safety、simulation、logging | 持续补 |