06 Robot Learning
本章抓手
- Robot learning 主要补上难建模、难写规则和需要泛化的部分。
- 学习策略要落地,必须处理数据成本、sim-to-real、安全和实时性。
- 最常见的强系统是 hybrid:learning 提供感知、表征或策略,经典模块提供约束、稳定和安全。
它解决什么问题
Robot learning 用数据和学习方法解决传统建模、规划或控制难以覆盖的问题。它特别适合复杂感知、非结构化环境、接触丰富任务、从人类演示中学习,以及跨任务泛化。
但 robotics 中的 learning 和纯 ML 不同:
- 数据采集昂贵且可能损坏硬件。
- 错误动作有物理风险。
- 分布由机器人自己的策略决定。
- 仿真和现实之间存在 sim-to-real gap。
- 策略必须满足实时性和安全约束。
模仿学习 Imitation Learning
模仿学习从专家示范中学习策略,是当前 robot manipulation 和 embodied AI 的主流路径之一。
核心形式:
dataset: (observation, action) pairs
learn: pi(a | o)
代表方法:
- Behavior Cloning:监督学习式动作预测。
- DAgger:让学习策略收集状态,再由专家标注纠正。
- Inverse Reinforcement Learning:从示范中反推 reward。
- Diffusion Policy:用 diffusion model 表达多模态动作分布。
- ACT / action chunking:一次预测多个动作片段,降低控制抖动。
关键难点:
- Covariate shift:测试时进入训练数据没覆盖的状态。
- Multi-modality:同一状态可能有多种合理动作。
- Demonstration interface:遥操作、VR、kinesthetic teaching、视频示范。
- Action representation:关节空间、末端位姿、速度、力或离散技能。
学习关键词:imitation learning, behavior cloning, DAgger, diffusion policy, action chunking, demonstration learning。
强化学习 Reinforcement Learning
RL 通过试错优化 reward,适合 locomotion、dexterous manipulation、控制策略和复杂技能学习。
代表算法:
- PPO:常用于仿真中的 locomotion。
- SAC:连续控制常用。
- TD3:确定性连续控制。
- Model-based RL:学习 dynamics 或使用模型预测。
- Offline RL:从已有数据学习,减少真实交互。
Robotics 中的关键技术:
- Domain randomization:随机化仿真参数提高泛化。
- System identification:估计真实系统参数缩小 sim-to-real gap。
- Curriculum learning:从简单任务逐步增加难度。
- Reward shaping:设计中间奖励帮助学习。
- Safety constraint:限制危险动作。
局限:
- Reward 很难设计。
- 探索可能危险。
- 真实机器人样本效率要求极高。
- 仿真中学到的策略不一定能迁移到现实。
学习关键词:robot reinforcement learning, PPO, SAC, sim-to-real, domain randomization, offline RL。
Self-Supervised and Representation Learning
机器人需要从大量未标注数据中学习可迁移表征,尤其是视觉、触觉和多模态数据。
常见目标:
- 学习几何表征。
- 学习 object-centric representation。
- 学习 affordance。
- 学习 dynamics representation。
- 让视觉表征服务于控制,而不只是分类。
代表方向:
- Contrastive learning。
- Masked autoencoding。
- Predictive coding。
- Video prediction。
- Object-centric learning。
- Multimodal representation learning。
学习关键词:self-supervised robot learning, representation learning, affordance learning, object-centric representation。
Sim-to-Real
Sim-to-real 研究如何把仿真中训练或验证的策略迁移到真实机器人。
主要 gap:
- Dynamics gap:质量、摩擦、弹性、接触模型不准。
- Sensor gap:光照、材质、噪声、延迟不同。
- Actuator gap:电机响应、 backlash、饱和、温度影响。
- Environment gap:真实环境变化比仿真复杂。
代表方法:
- Domain randomization。
- Domain adaptation。
- System identification。
- Residual learning。
- Real-to-sim-to-real loop。
- Privileged learning:训练时用仿真 privileged state,部署时用可观测输入。
学习关键词:sim-to-real, domain randomization, system identification, domain adaptation, residual policy。
Foundation Models for Robotics
Foundation models 进入 robotics 后,通常承担三类角色:
- 高层规划器:把语言指令分解成子任务。
- 表征模型:提供视觉、语言或场景理解能力。
- 策略模型:直接或间接输出机器人动作。
常见架构:
- LLM planner + classical planner / controller。
- Vision-language model for grounding。
- Vision-language-action model 输出动作序列。
- Hierarchical policy:foundation model 做慢速推理,低层控制器高速执行。
关键问题:
- Grounding:语言是否真的绑定到了场景和可执行动作。
- Data scale:机器人动作数据远少于互联网文本和图像。
- Embodiment mismatch:不同机器人身体结构和动作空间不同。
- Evaluation:真实机器人任务评估昂贵且难标准化。
- Safety:语言模型可能生成不可执行或危险计划。
学习关键词:embodied AI, robot foundation model, vision-language-action model, grounding, hierarchical policy。
VLA: Vision-Language-Action
VLA 模型把视觉观察、语言指令和动作输出放进同一策略框架。
输入可能包括:
- RGB image。
- Depth / point cloud。
- Language instruction。
- Proprioception:关节角、夹爪状态、机器人姿态。
- Task history。
输出可能包括:
- End-effector delta pose。
- Joint velocity / position。
- Gripper command。
- Discrete skill token。
- Action chunk。
典型挑战:
- 动作 tokenization 如何设计。
- 多机器人数据如何统一动作空间。
- 高频控制是否交给底层 controller。
- 长时程任务如何保持状态和纠错。
学习关键词:VLA, action tokenization, language-conditioned policy, robot data scaling, multimodal policy。
Learning 与 Classical Robotics 的关系
学习方法并不一定替代经典 robotics。很多强系统是 hybrid:
- 感知用 deep learning,定位用 filter / graph optimization。
- 高层任务用 LLM,低层运动用 motion planner。
- 策略输出目标位姿,控制器负责稳定跟踪。
- RL 学 locomotion policy,MPC 或 safety filter 做保护。
- Learning 预测 cost / affordance,规划器负责约束满足。
常见失败模式
- 训练成功但部署延迟过高。
- 仿真策略利用了现实不存在的物理漏洞。
- 数据集中动作分布太窄,遇到偏差无法恢复。
- 模型能描述任务,但输出不可执行动作。
- 策略短期成功,长期任务中错误累积。
学习关键词
robot learning, imitation learning, reinforcement learning, diffusion policy, sim-to-real, foundation models, embodied AI, VLA, safe learning。