06 Robot Learning

本章抓手

Robot learning 主要补上难建模、难写规则和需要泛化的部分。
学习策略要落地，必须处理数据成本、sim-to-real、安全和实时性。
最常见的强系统是 hybrid：learning 提供感知、表征或策略，经典模块提供约束、稳定和安全。

它解决什么问题

Robot learning 用数据和学习方法解决传统建模、规划或控制难以覆盖的问题。它特别适合复杂感知、非结构化环境、接触丰富任务、从人类演示中学习，以及跨任务泛化。

但 robotics 中的 learning 和纯 ML 不同：

数据采集昂贵且可能损坏硬件。
错误动作有物理风险。
分布由机器人自己的策略决定。
仿真和现实之间存在 sim-to-real gap。
策略必须满足实时性和安全约束。

模仿学习 Imitation Learning

模仿学习从专家示范中学习策略，是当前 robot manipulation 和 embodied AI 的主流路径之一。

核心形式：

dataset: (observation, action) pairs
learn:   pi(a | o)

代表方法：

Behavior Cloning：监督学习式动作预测。
DAgger：让学习策略收集状态，再由专家标注纠正。
Inverse Reinforcement Learning：从示范中反推 reward。
Diffusion Policy：用 diffusion model 表达多模态动作分布。
ACT / action chunking：一次预测多个动作片段，降低控制抖动。

关键难点：

Covariate shift：测试时进入训练数据没覆盖的状态。
Multi-modality：同一状态可能有多种合理动作。
Demonstration interface：遥操作、VR、kinesthetic teaching、视频示范。
Action representation：关节空间、末端位姿、速度、力或离散技能。

学习关键词：imitation learning, behavior cloning, DAgger, diffusion policy, action chunking, demonstration learning。

强化学习 Reinforcement Learning

RL 通过试错优化 reward，适合 locomotion、dexterous manipulation、控制策略和复杂技能学习。

代表算法：

PPO：常用于仿真中的 locomotion。
SAC：连续控制常用。
TD3：确定性连续控制。
Model-based RL：学习 dynamics 或使用模型预测。
Offline RL：从已有数据学习，减少真实交互。

Robotics 中的关键技术：

Domain randomization：随机化仿真参数提高泛化。
System identification：估计真实系统参数缩小 sim-to-real gap。
Curriculum learning：从简单任务逐步增加难度。
Reward shaping：设计中间奖励帮助学习。
Safety constraint：限制危险动作。

局限：

Reward 很难设计。
探索可能危险。
真实机器人样本效率要求极高。
仿真中学到的策略不一定能迁移到现实。

学习关键词：robot reinforcement learning, PPO, SAC, sim-to-real, domain randomization, offline RL。

Self-Supervised and Representation Learning

机器人需要从大量未标注数据中学习可迁移表征，尤其是视觉、触觉和多模态数据。

常见目标：

学习几何表征。
学习 object-centric representation。
学习 affordance。
学习 dynamics representation。
让视觉表征服务于控制，而不只是分类。

代表方向：

Contrastive learning。
Masked autoencoding。
Predictive coding。
Video prediction。
Object-centric learning。
Multimodal representation learning。

学习关键词：self-supervised robot learning, representation learning, affordance learning, object-centric representation。

Sim-to-Real

Sim-to-real 研究如何把仿真中训练或验证的策略迁移到真实机器人。

主要 gap：

Dynamics gap：质量、摩擦、弹性、接触模型不准。
Sensor gap：光照、材质、噪声、延迟不同。
Actuator gap：电机响应、 backlash、饱和、温度影响。
Environment gap：真实环境变化比仿真复杂。

代表方法：

Domain randomization。
Domain adaptation。
System identification。
Residual learning。
Real-to-sim-to-real loop。
Privileged learning：训练时用仿真 privileged state，部署时用可观测输入。

学习关键词：sim-to-real, domain randomization, system identification, domain adaptation, residual policy。

Foundation Models for Robotics

Foundation models 进入 robotics 后，通常承担三类角色：

高层规划器：把语言指令分解成子任务。
表征模型：提供视觉、语言或场景理解能力。
策略模型：直接或间接输出机器人动作。

常见架构：

LLM planner + classical planner / controller。
Vision-language model for grounding。
Vision-language-action model 输出动作序列。
Hierarchical policy：foundation model 做慢速推理，低层控制器高速执行。

关键问题：

Grounding：语言是否真的绑定到了场景和可执行动作。
Data scale：机器人动作数据远少于互联网文本和图像。
Embodiment mismatch：不同机器人身体结构和动作空间不同。
Evaluation：真实机器人任务评估昂贵且难标准化。
Safety：语言模型可能生成不可执行或危险计划。

学习关键词：embodied AI, robot foundation model, vision-language-action model, grounding, hierarchical policy。

VLA: Vision-Language-Action

VLA 模型把视觉观察、语言指令和动作输出放进同一策略框架。

输入可能包括：

RGB image。
Depth / point cloud。
Language instruction。
Proprioception：关节角、夹爪状态、机器人姿态。
Task history。

输出可能包括：

End-effector delta pose。
Joint velocity / position。
Gripper command。
Discrete skill token。
Action chunk。

典型挑战：

动作 tokenization 如何设计。
多机器人数据如何统一动作空间。
高频控制是否交给底层 controller。
长时程任务如何保持状态和纠错。

学习关键词：VLA, action tokenization, language-conditioned policy, robot data scaling, multimodal policy。

Learning 与 Classical Robotics 的关系

学习方法并不一定替代经典 robotics。很多强系统是 hybrid：

感知用 deep learning，定位用 filter / graph optimization。
高层任务用 LLM，低层运动用 motion planner。
策略输出目标位姿，控制器负责稳定跟踪。
RL 学 locomotion policy，MPC 或 safety filter 做保护。
Learning 预测 cost / affordance，规划器负责约束满足。

常见失败模式

训练成功但部署延迟过高。
仿真策略利用了现实不存在的物理漏洞。
数据集中动作分布太窄，遇到偏差无法恢复。
模型能描述任务，但输出不可执行动作。
策略短期成功，长期任务中错误累积。

学习关键词

robot learning, imitation learning, reinforcement learning, diffusion policy, sim-to-real, foundation models, embodied AI, VLA, safe learning。

你在 Robot Learning / Policy