DocProgress

你在 Frontier / Research Judgment

先确认本页回答什么问题,再决定读完后回路线、资源还是项目。

阅读前提
想追 VLA、humanoid、diffusion policy 等前沿,但需要判断框架。
读完产出
能用 data、action representation、real robot validation、safety、deployment 筛选前沿工作。
下一步
做最小复现实验,或回 robot learning 章节补基础。
失败模式入口
只看模型规模和 demo 视频,不看数据来源、评测和失败模式。

11 Robotics 前沿雷达

更新时间:2026-05-15。前沿判断基于公开资料和官方/论文页面,后续应定期刷新。

怎么读前沿

看到一个新 robot foundation model,不要只记模型名。按这张表判断它真正贡献在哪里:

问题为什么重要
数据从哪里来真实机器人数据、仿真数据、人类视频和合成数据的比例决定可迁移性
动作如何表示action token、delta pose、joint command、flow / diffusion policy 会影响控制接口
是否跨本体单一机械臂成功不等于 humanoid、mobile manipulator、双臂都能成功
是否真实机器人验证仿真 benchmark 和真实部署差距很大
失败模式是什么真实机器人研究最有价值的信息常在失败案例里
如何安全部署latency、monitor、fallback、safety filter 决定能否出实验室

方向 1: VLA / Robot Foundation Models

Vision-Language-Action (VLA) 模型把视觉、语言和动作统一起来,是当前 robot learning 的主战场之一。

代表线索:

  • RT-2:Google DeepMind 把 web-scale VLM 能力迁移到机器人控制,强化了 VLA 范式。
  • OpenVLA:推动开源 VLA,让 fine-tuning 和复现实验更容易。
  • Gemini Robotics:Google DeepMind 将 Gemini 的 multimodal reasoning 扩展到 physical action,并强调 long-horizon、interactivity、dexterity、多本体。

核心研究问题:

  • Language grounding 是否真的绑定到可执行动作。
  • 动作空间如何统一不同机器人。
  • 模型是否能从少量 post-training 数据适配新任务。
  • 高层 reasoning 与低层 control 如何分工。

学习抓手:

VLM grounding -> action representation -> robot data -> policy fine-tuning -> safety wrapper

方向 2: Cross-Embodiment Data

Robotics 的大问题是数据不像文本和图像那样天然海量。Open X-Embodiment 这类工作试图把不同机器人、不同实验室、不同任务的数据统一起来。

为什么重要:

  • 单机器人数据太少,泛化很弱。
  • 不同机器人有不同 action space、camera setup、control frequency。
  • 数据标准化是 robot foundation model 的前提。

关键问题:

  • 如何对齐不同 embodiment 的动作。
  • 如何处理质量不一的 demonstration。
  • 如何评估跨机器人迁移,而不是只在单一 benchmark 上涨分。

学习抓手:

dataset schema -> embodiment normalization -> policy pretraining -> task-specific adaptation

方向 3: Diffusion / Flow Policies

Diffusion Policy 之后,很多 manipulation 策略从单步回归转向生成一段动作序列。这样更适合多模态动作和接触丰富任务。

为什么重要:

  • 同一个观察下可能有多种合理动作。
  • 单步动作预测容易抖动。
  • Receding horizon action generation 可以和控制闭环结合。

关键问题:

  • 生成动作序列的延迟是否可接受。
  • 如何保证动作满足安全和动力学约束。
  • 如何处理长时程任务中的错误恢复。

学习抓手:

behavior cloning -> sequence modeling -> diffusion policy -> receding horizon execution

方向 4: Open Robot Learning Stack

LeRobot 等开放工具链把数据采集、数据格式、训练、评估和部署打通,降低了做真实 robot learning 的门槛。

为什么重要:

  • Robotics 过去常被封闭硬件和私有数据割裂。
  • 开源工具能让小团队复现和比较方法。
  • 数据采集 pipeline 和训练代码一样重要。

关注点:

  • 支持哪些硬件。
  • 数据格式是否可迁移。
  • 是否支持异步 inference 和真实控制频率。
  • 是否能与 ROS 2 / robot middleware 配合。

学习抓手:

teleoperation -> dataset -> training -> evaluation -> deployment

方向 5: Humanoid Foundation Models

Humanoid 是前沿热点,但也最容易被宣传噪音淹没。GR00T N1 这类工作强调 humanoid reasoning、general skills、synthetic data 和 post-training。

关键判断:

  • 是否只展示 demo,还是有可复现实验。
  • 是否跨任务、跨环境、跨机器人。
  • 是否能处理摔倒、接触失败、人类靠近等安全问题。
  • 是否有真实工作流价值,而不只是展示动作。

学习抓手:

whole-body control -> locomotion -> manipulation -> VLA reasoning -> safety monitor

方向 6: Safety, On-Device, Runtime Systems

机器人前沿不只是模型越来越大。真正部署时,on-device inference、低延迟、安全过滤、日志和故障恢复会成为核心能力。

关键问题:

  • 模型推理延迟是否适配控制频率。
  • 网络断开时机器人如何降级。
  • 是否有 runtime monitor 发现危险状态。
  • 高层模型输出是否经过 planner / controller / safety filter。

学习抓手:

model output -> constraint check -> controller -> monitor -> fallback

研究雷达

建议你把前沿按这四个象限分类:

象限例子学习策略
近期可做Diffusion Policy 小复现、LeRobot 数据流程做项目
中期深入VLA fine-tuning、cross-embodiment dataset读论文 + 小实验
长期研究generalist robot policy、humanoid foundation model跟踪论文和系统
工程底座ROS 2、safety、simulation、logging持续补

参考入口

Continue