11 Robotics 前沿雷达

更新时间：2026-05-15。前沿判断基于公开资料和官方/论文页面，后续应定期刷新。

怎么读前沿

看到一个新 robot foundation model，不要只记模型名。按这张表判断它真正贡献在哪里：

问题	为什么重要
数据从哪里来	真实机器人数据、仿真数据、人类视频和合成数据的比例决定可迁移性
动作如何表示	action token、delta pose、joint command、flow / diffusion policy 会影响控制接口
是否跨本体	单一机械臂成功不等于 humanoid、mobile manipulator、双臂都能成功
是否真实机器人验证	仿真 benchmark 和真实部署差距很大
失败模式是什么	真实机器人研究最有价值的信息常在失败案例里
如何安全部署	latency、monitor、fallback、safety filter 决定能否出实验室

方向 1: VLA / Robot Foundation Models

Vision-Language-Action (VLA) 模型把视觉、语言和动作统一起来，是当前 robot learning 的主战场之一。

代表线索：

RT-2：Google DeepMind 把 web-scale VLM 能力迁移到机器人控制，强化了 VLA 范式。
OpenVLA：推动开源 VLA，让 fine-tuning 和复现实验更容易。
Gemini Robotics：Google DeepMind 将 Gemini 的 multimodal reasoning 扩展到 physical action，并强调 long-horizon、interactivity、dexterity、多本体。

核心研究问题：

Language grounding 是否真的绑定到可执行动作。
动作空间如何统一不同机器人。
模型是否能从少量 post-training 数据适配新任务。
高层 reasoning 与低层 control 如何分工。

学习抓手：

VLM grounding -> action representation -> robot data -> policy fine-tuning -> safety wrapper

方向 2: Cross-Embodiment Data

Robotics 的大问题是数据不像文本和图像那样天然海量。Open X-Embodiment 这类工作试图把不同机器人、不同实验室、不同任务的数据统一起来。

为什么重要：

单机器人数据太少，泛化很弱。
不同机器人有不同 action space、camera setup、control frequency。
数据标准化是 robot foundation model 的前提。

关键问题：

如何对齐不同 embodiment 的动作。
如何处理质量不一的 demonstration。
如何评估跨机器人迁移，而不是只在单一 benchmark 上涨分。

学习抓手：

dataset schema -> embodiment normalization -> policy pretraining -> task-specific adaptation

方向 3: Diffusion / Flow Policies

Diffusion Policy 之后，很多 manipulation 策略从单步回归转向生成一段动作序列。这样更适合多模态动作和接触丰富任务。

为什么重要：

同一个观察下可能有多种合理动作。
单步动作预测容易抖动。
Receding horizon action generation 可以和控制闭环结合。

关键问题：

生成动作序列的延迟是否可接受。
如何保证动作满足安全和动力学约束。
如何处理长时程任务中的错误恢复。

学习抓手：

behavior cloning -> sequence modeling -> diffusion policy -> receding horizon execution

方向 4: Open Robot Learning Stack

LeRobot 等开放工具链把数据采集、数据格式、训练、评估和部署打通，降低了做真实 robot learning 的门槛。

为什么重要：

Robotics 过去常被封闭硬件和私有数据割裂。
开源工具能让小团队复现和比较方法。
数据采集 pipeline 和训练代码一样重要。

关注点：

支持哪些硬件。
数据格式是否可迁移。
是否支持异步 inference 和真实控制频率。
是否能与 ROS 2 / robot middleware 配合。

学习抓手：

teleoperation -> dataset -> training -> evaluation -> deployment

方向 5: Humanoid Foundation Models

Humanoid 是前沿热点，但也最容易被宣传噪音淹没。GR00T N1 这类工作强调 humanoid reasoning、general skills、synthetic data 和 post-training。

关键判断：

是否只展示 demo，还是有可复现实验。
是否跨任务、跨环境、跨机器人。
是否能处理摔倒、接触失败、人类靠近等安全问题。
是否有真实工作流价值，而不只是展示动作。

学习抓手：

whole-body control -> locomotion -> manipulation -> VLA reasoning -> safety monitor

方向 6: Safety, On-Device, Runtime Systems

机器人前沿不只是模型越来越大。真正部署时，on-device inference、低延迟、安全过滤、日志和故障恢复会成为核心能力。

关键问题：

模型推理延迟是否适配控制频率。
网络断开时机器人如何降级。
是否有 runtime monitor 发现危险状态。
高层模型输出是否经过 planner / controller / safety filter。

学习抓手：

model output -> constraint check -> controller -> monitor -> fallback

研究雷达

建议你把前沿按这四个象限分类：

象限	例子	学习策略
近期可做	Diffusion Policy 小复现、LeRobot 数据流程	做项目
中期深入	VLA fine-tuning、cross-embodiment dataset	读论文 + 小实验
长期研究	generalist robot policy、humanoid foundation model	跟踪论文和系统
工程底座	ROS 2、safety、simulation、logging	持续补

你在 Frontier / Research Judgment

11 Robotics 前沿雷达

怎么读前沿

方向 1: VLA / Robot Foundation Models

方向 2: Cross-Embodiment Data

方向 3: Diffusion / Flow Policies

方向 4: Open Robot Learning Stack

方向 5: Humanoid Foundation Models

方向 6: Safety, On-Device, Runtime Systems

研究雷达

参考入口

你在 Frontier / Research Judgment

11 Robotics 前沿雷达

怎么读前沿

方向 1: VLA / Robot Foundation Models

方向 2: Cross-Embodiment Data

方向 3: Diffusion / Flow Policies

方向 4: Open Robot Learning Stack

方向 5: Humanoid Foundation Models

方向 6: Safety, On-Device, Runtime Systems

研究雷达

参考入口

把本页转成下一步行动