DocProgress

你在 物理闭环 / 第一直觉

先确认本页回答什么问题,再决定读完后回路线、资源还是项目。

阅读前提
适合第一次接触 robotics,或只知道 AI 模型但缺少物理闭环直觉。
读完产出
能用一个移动机械臂任务解释每个系统模块的输入、输出和失败原因。
下一步
阅读全局框架,建立 Body / Environment / Task / Representation 坐标。
失败模式入口
把 robotics 理解成算法清单,忽略传感器噪声、延迟、接触和反馈。

00 十分钟建立 Robotics 直觉

这页用一个具体任务建立 robotics 的第一张地图。先不背算法名,也不从课程清单开始;先看机器人如何在真实世界里感知、估计、规划、控制、执行,并在失败后修正。

0. 先用一个任务看全局

想象一个移动机械臂要完成任务:

走到桌边,把杯子拿起,放进收纳盒。

这个任务看起来像一句自然语言指令,但机器人真正需要解决的是一串互相依赖的问题。

问题机器人要知道什么对应模块
我在哪里机器人底盘、机械臂、相机和世界坐标的关系localization, TF, state estimation
世界里有什么桌子、杯子、盒子、障碍物、人在哪里perception, mapping, scene understanding
下一步做什么先移动到桌边,还是先调整手臂姿态task planning, behavior planning
怎么过去路径是否安全,底盘是否能通过navigation, path planning, local planning
手怎么到杯子末端位姿、关节角、碰撞约束IK, motion planning, trajectory optimization
接触时怎么办抓取力、滑动、碰撞、插入误差force control, impedance control
如果失败怎么办看错、抓空、被挡住、定位漂移monitoring, recovery, safety

这就是 robotics 的全局观:不是一个模型直接输出动作,而是多个模块围绕物理世界、时间、身体和不确定性协同工作。

1. 一句话总纲

机器人 = 有身体的计算系统 + 带噪声的感知 + 不确定状态 + 可执行计划 + 高频反馈控制 + 安全约束

最核心的闭环是:

Sense -> Estimate -> Model -> Plan -> Control -> Act -> Sense again

中文直觉:

看见世界 -> 估计自己和世界的状态 -> 形成可行动的世界模型
-> 规划下一步 -> 用控制器稳定执行 -> 世界改变 -> 再次感知

如果只能记住一句话,记这个:

Robotics 研究的是:如何让一个受物理约束的身体,在不确定环境里,实时、安全地改变世界状态。

2. 三个根问题

所有 robotics 内容都可以压进三个问题:

根问题人话解释典型模块
What is the world?现在发生了什么,我知道多少,不确定性多大perception, state estimation, SLAM
What should happen next?为了完成任务,下一步应该让世界怎样变化planning, trajectory optimization, policy learning
How do we make it happen?真实机器人如何稳定、安全、实时地执行control, dynamics, actuation, safety

这三个问题不是线性流程,而是多频率闭环。底层控制可能 1000 Hz,高层任务规划可能 1 Hz,视觉感知可能 30 Hz。机器人系统的难点经常来自这些频率、延迟和接口不一致。

3. 用四个坐标轴定位任何方向

看到任何机器人方向、论文或产品 demo,先问四个问题。

坐标轴要问什么为什么重要
Body机器人身体是什么轮式、机械臂、无人机、腿足、人形机器人对应完全不同的动力学和控制难点
Environment环境有多开放工厂、仓库、道路、家庭、野外决定不确定性、安全冗余和学习需求
Task任务在哪个时间尺度servo、trajectory、skill、task、mission 对应不同算法层
Representation系统传递什么表示state、belief、map、cost、trajectory、policy、controller 决定模块接口

这四个坐标轴比“用了什么大模型”更底层。模型会变,但身体、环境、任务和表示不会消失。

4. 五层系统栈

把机器人系统想成五层,每层都在把上一层的信息变成下一层可用的东西。

输入输出代表方法常见失败
Perceptionimage, LiDAR, depth, tactileobject, obstacle, affordancedetection, segmentation, pose estimation看见了但不准,语义无法行动
State Estimationsensor measurement, motion modelpose, velocity, beliefEKF, particle filter, factor graph, SLAM漂移、延迟、坐标错
Planninggoal, map, constraintspath, motion, task sequenceA*, RRT, PRM, TAMP, trajectory optimization路径可行但物理不可执行
Controldesired state or trajectorytorque, velocity, force commandPID, LQR, MPC, impedance control抖动、超调、跟踪失败
Systemsall modulesrunning robotROS 2, TF, realtime, logging, safety monitor时间戳、QoS、硬件限制、不可复盘

学习方法 robot learning 通常不是第六层,而是会插入这些层:学 perception、学 cost、学 policy、学 dynamics、学 recovery,但仍要受系统接口和安全约束限制。

5. 三条典型主线

移动机器人 Mobile Robotics

LiDAR / camera / IMU
-> localization / SLAM
-> map / costmap
-> global path
-> local planner
-> velocity control

抓重点:移动机器人最核心是“我在哪里、周围能不能走、怎样安全到目标”。

机械臂与操作 Manipulation

camera / depth / force
-> object pose / affordance
-> grasp / task plan
-> IK / motion planning
-> trajectory tracking
-> force / impedance control

抓重点:操作最核心是“目标在哪、手怎么过去、接触时如何稳定”。

腿足 / 人形 / 无人机 Dynamic Robots

IMU / joint state / vision
-> state estimation
-> dynamics model
-> trajectory or gait
-> MPC / whole-body control
-> high-frequency actuation

抓重点:动态机器人最核心是“身体会不会失稳、接触是否可靠、控制是否足够快”。

6. 看到一个算法时,30 秒内这样归类

你看到的关键词先归到哪一层继续追问
detector, segmentation, pose, depthPerception输出能否直接支持规划或抓取
Kalman, particle, factor graph, VIOState Estimation状态频率、延迟、漂移如何影响控制
A*, RRT, PRM, costmapPlanning是否考虑动力学、碰撞和实时重规划
trajectory optimization, CHOMP, iLQRPlanning / Control interface输出轨迹是否可被控制器跟踪
PID, LQR, MPC, impedanceControl稳定性、约束、扰动和执行器限制如何处理
imitation learning, RL, diffusion policyRobot Learning学的是表示、动作、cost、dynamics 还是 recovery
ROS 2, TF, bag, QoS, realtimeSystems时间、坐标、消息频率和日志是否可复盘

这张表的作用是让你看到任何资料时不迷路:先定位层,再问输入、输出、频率和失败模式。

7. AI/CS 背景最容易误解的地方

AI/CS 直觉Robotics 真实情况
prediction 很重要prediction 只是行动闭环的一部分
模型越强越好输出必须满足物理、安全、实时和接口约束
数据集固定机器人动作会改变未来数据分布
错了可以重试物理错误可能撞坏东西或伤人
端到端更简单端到端必须解释频率、延迟、安全边界和失败恢复
仿真成功就够了sim-to-real gap、传感器噪声和执行器延迟会改变结果

所以 robotics 的核心不是“把 AI 接到机器人上”,而是把 AI 放进一个受物理约束的闭环系统里。

8. 最小心智模型

  • 感知不是为了识别一切,而是为了支持行动。
  • 状态估计不是附属模块,而是连接传感器和控制的地基。
  • 地图不是越精细越好,而是要适配规划器。
  • 规划不是最终动作,而是给控制器的意图。
  • 控制不是简单输出 action,而是用反馈抵抗扰动。
  • 学习不是魔法替代品,而是补上感知复杂、接触难建模、规则难手写的部分。
  • 系统工程不是收尾工作,而是决定算法能否活在真实世界。

9. 第一遍应该怎么读

如果只有 30 分钟:

  1. 读本页,先形成闭环直觉。
  2. 00_global_framework.md,建立身体、环境、任务、表示的坐标系。
  3. knowledge.html,知道全站入口如何跳转。

如果有 2 小时:

  1. 00_quick_grasp.md00_global_framework.md
  2. 01_field_overview.md,把各方向放到同一张图里。
  3. 02_algorithm_stack.md,理解算法从传感器到动作的链路。
  4. 快速扫 03_control_dynamics.md,先补 feedback、kinematics、dynamics 的直觉。

如果要真正开始学:

全局闭环 -> 坐标与运动学 -> 状态估计 -> 规划 -> 控制 -> ROS 2 系统 -> 小项目复盘

这条路径比一开始追最新模型更稳。等你能判断一个失败来自感知、估计、规划、控制还是系统,再追 robot learning 和前沿会清晰很多。

Continue