DocProgress

你在 Robot Learning / Policy

先确认本页回答什么问题,再决定读完后回路线、资源还是项目。

阅读前提
有 AI/ML 背景,想把 learning 放回真实机器人闭环。
读完产出
能判断 IL、RL、diffusion policy、VLA 改变的是哪个接口。
下一步
用前沿矩阵筛论文,或做 imitation / diffusion policy 小实验。
失败模式入口
只比较模型指标,不看真实机器人验证、失败恢复和安全边界。

06 Robot Learning

本章抓手

  • Robot learning 主要补上难建模、难写规则和需要泛化的部分。
  • 学习策略要落地,必须处理数据成本、sim-to-real、安全和实时性。
  • 最常见的强系统是 hybrid:learning 提供感知、表征或策略,经典模块提供约束、稳定和安全。

它解决什么问题

Robot learning 用数据和学习方法解决传统建模、规划或控制难以覆盖的问题。它特别适合复杂感知、非结构化环境、接触丰富任务、从人类演示中学习,以及跨任务泛化。

但 robotics 中的 learning 和纯 ML 不同:

  • 数据采集昂贵且可能损坏硬件。
  • 错误动作有物理风险。
  • 分布由机器人自己的策略决定。
  • 仿真和现实之间存在 sim-to-real gap。
  • 策略必须满足实时性和安全约束。

模仿学习 Imitation Learning

模仿学习从专家示范中学习策略,是当前 robot manipulation 和 embodied AI 的主流路径之一。

核心形式:

dataset: (observation, action) pairs
learn:   pi(a | o)

代表方法:

  • Behavior Cloning:监督学习式动作预测。
  • DAgger:让学习策略收集状态,再由专家标注纠正。
  • Inverse Reinforcement Learning:从示范中反推 reward。
  • Diffusion Policy:用 diffusion model 表达多模态动作分布。
  • ACT / action chunking:一次预测多个动作片段,降低控制抖动。

关键难点:

  • Covariate shift:测试时进入训练数据没覆盖的状态。
  • Multi-modality:同一状态可能有多种合理动作。
  • Demonstration interface:遥操作、VR、kinesthetic teaching、视频示范。
  • Action representation:关节空间、末端位姿、速度、力或离散技能。

学习关键词:imitation learning, behavior cloning, DAgger, diffusion policy, action chunking, demonstration learning。

强化学习 Reinforcement Learning

RL 通过试错优化 reward,适合 locomotion、dexterous manipulation、控制策略和复杂技能学习。

代表算法:

  • PPO:常用于仿真中的 locomotion。
  • SAC:连续控制常用。
  • TD3:确定性连续控制。
  • Model-based RL:学习 dynamics 或使用模型预测。
  • Offline RL:从已有数据学习,减少真实交互。

Robotics 中的关键技术:

  • Domain randomization:随机化仿真参数提高泛化。
  • System identification:估计真实系统参数缩小 sim-to-real gap。
  • Curriculum learning:从简单任务逐步增加难度。
  • Reward shaping:设计中间奖励帮助学习。
  • Safety constraint:限制危险动作。

局限:

  • Reward 很难设计。
  • 探索可能危险。
  • 真实机器人样本效率要求极高。
  • 仿真中学到的策略不一定能迁移到现实。

学习关键词:robot reinforcement learning, PPO, SAC, sim-to-real, domain randomization, offline RL。

Self-Supervised and Representation Learning

机器人需要从大量未标注数据中学习可迁移表征,尤其是视觉、触觉和多模态数据。

常见目标:

  • 学习几何表征。
  • 学习 object-centric representation。
  • 学习 affordance。
  • 学习 dynamics representation。
  • 让视觉表征服务于控制,而不只是分类。

代表方向:

  • Contrastive learning。
  • Masked autoencoding。
  • Predictive coding。
  • Video prediction。
  • Object-centric learning。
  • Multimodal representation learning。

学习关键词:self-supervised robot learning, representation learning, affordance learning, object-centric representation。

Sim-to-Real

Sim-to-real 研究如何把仿真中训练或验证的策略迁移到真实机器人。

主要 gap:

  • Dynamics gap:质量、摩擦、弹性、接触模型不准。
  • Sensor gap:光照、材质、噪声、延迟不同。
  • Actuator gap:电机响应、 backlash、饱和、温度影响。
  • Environment gap:真实环境变化比仿真复杂。

代表方法:

  • Domain randomization。
  • Domain adaptation。
  • System identification。
  • Residual learning。
  • Real-to-sim-to-real loop。
  • Privileged learning:训练时用仿真 privileged state,部署时用可观测输入。

学习关键词:sim-to-real, domain randomization, system identification, domain adaptation, residual policy。

Foundation Models for Robotics

Foundation models 进入 robotics 后,通常承担三类角色:

  • 高层规划器:把语言指令分解成子任务。
  • 表征模型:提供视觉、语言或场景理解能力。
  • 策略模型:直接或间接输出机器人动作。

常见架构:

  • LLM planner + classical planner / controller。
  • Vision-language model for grounding。
  • Vision-language-action model 输出动作序列。
  • Hierarchical policy:foundation model 做慢速推理,低层控制器高速执行。

关键问题:

  • Grounding:语言是否真的绑定到了场景和可执行动作。
  • Data scale:机器人动作数据远少于互联网文本和图像。
  • Embodiment mismatch:不同机器人身体结构和动作空间不同。
  • Evaluation:真实机器人任务评估昂贵且难标准化。
  • Safety:语言模型可能生成不可执行或危险计划。

学习关键词:embodied AI, robot foundation model, vision-language-action model, grounding, hierarchical policy。

VLA: Vision-Language-Action

VLA 模型把视觉观察、语言指令和动作输出放进同一策略框架。

输入可能包括:

  • RGB image。
  • Depth / point cloud。
  • Language instruction。
  • Proprioception:关节角、夹爪状态、机器人姿态。
  • Task history。

输出可能包括:

  • End-effector delta pose。
  • Joint velocity / position。
  • Gripper command。
  • Discrete skill token。
  • Action chunk。

典型挑战:

  • 动作 tokenization 如何设计。
  • 多机器人数据如何统一动作空间。
  • 高频控制是否交给底层 controller。
  • 长时程任务如何保持状态和纠错。

学习关键词:VLA, action tokenization, language-conditioned policy, robot data scaling, multimodal policy。

Learning 与 Classical Robotics 的关系

学习方法并不一定替代经典 robotics。很多强系统是 hybrid:

  • 感知用 deep learning,定位用 filter / graph optimization。
  • 高层任务用 LLM,低层运动用 motion planner。
  • 策略输出目标位姿,控制器负责稳定跟踪。
  • RL 学 locomotion policy,MPC 或 safety filter 做保护。
  • Learning 预测 cost / affordance,规划器负责约束满足。

常见失败模式

  • 训练成功但部署延迟过高。
  • 仿真策略利用了现实不存在的物理漏洞。
  • 数据集中动作分布太窄,遇到偏差无法恢复。
  • 模型能描述任务,但输出不可执行动作。
  • 策略短期成功,长期任务中错误累积。

学习关键词

robot learning, imitation learning, reinforcement learning, diffusion policy, sim-to-real, foundation models, embodied AI, VLA, safe learning。

Continue