Embodied AI Overview
Last updated on September 19, 2025 pm
本文是具身智能系列的第 1 篇博客,将介绍具身智能的基础技术路线。
笔者刚开始接触具身智能。由于这个领域较为宏大,新手比较难搞清整体的结构。
本文旨在面向新手,提供一个具身智能的整体概况,介绍一些基础的技术路线。本文主要参考了 B 站视频 https://www.bilibili.com/video/BV1d5ukedEsi/,作者董云龙。
具身智能概况
具身智能是一个完整的系统,需要包括环境理解、智能交互、认知推理、规划执行这几个基本的功能。机器人通过视觉或触觉理解环境,可以与人类进行语音交互,其“大脑”能够进行认知和推理,进而规划并执行其动作。
这是一个系统化的工程,多种不同的模型会参与到这个过程中。例如,大语言模型(LLM)具有出色的推理和逻辑能力,常被用于动作的规划,能够将人类指令意图转换到具体规划代码的生成。
具身智能的基础技术路线,主要包含了四大技术:场景理解、数据引导、动作执行和世界模型。
场景理解
想象机器人走进一个房间,它不仅要能看到物体,还要能理解它们是什么、在哪里、有什么用。这就是场景理解,它是机器人与环境交互的基础。
检测与分割 (Detection and Segmentation)
机器人想要理解环境,首先要学会识别不同的物体,并将它们从环境中分离出。检测,就像给物体画上一个方框,机器人需要知道“这里有个杯子”。分割则需要能精确地勾勒出物体的轮廓。只有学会从环境中进行检测和分割,机器人才有可能进行下一步的操作,比如抓取一个特定的苹果,而不是它旁边的香蕉。
多模态 Grounding (Multimodal Grounding)
Grounding 指将自然语言文本与视觉场景之间进行对齐或连接。多模态大模型具有对文本和图像的良好理解能力,能够实现像素级别的细粒度 Grounding,能极大提高目标检测和场景理解的能力。
数据引导
机器人需要数据进行学习,数据引导是为机器人提供数据的方法。与大模型不同,机器人的训练数据规模较小,因此需要数据引导技术。
视频学习 (From Video)
视频学习,就是让机器人观看大量的视频(比如人类做饭、打扫的视频),并从中学习完成任务的步骤和技巧。由于互联网上有海量的视频数据,这为机器人提供了成本低廉且体量很大的学习材料。
硬件在环 (Hardware-in-the-Loop)
使用硬件采集数据,这可能是最直观的“手把手”教学。为了让机器人学会复杂、灵巧的操作,一个高效的方法就是让人类专家亲自上阵,通过佩戴一系列硬件设备来直接演示。机器人会记录下人类专家的每一个动作、每一个决策,形成高质量的训练数据。
这类硬件主要分为轻量级硬件 (Light-weight Hardware)和重量级硬件 (Heavy-weight Hardware)。轻量级硬件不是完整的机器人,其设备相对便携,如能捕捉精细手部姿态的数据手套。重量级硬件,主要是 VR 头显及 VR 手套。专家佩戴 VR 头显,操控 VR 手套进行操作。这个过程中所有的传感器数据和动作指令都会被完整记录下来,成为机器人的训练数据。
生成式仿真 (Generative Simulation)
生成式仿真技术可以基于少量真实数据,借助 AI 创造出海量、多样化的虚拟训练场景和任务。它解决了机器人训练数据稀缺和多样性不足的难题,让机器人能在虚拟世界中进行无限的练习,从而更好地应对真实世界的复杂情况。
动作执行
动作执行模块负责将任务规划转化为机器人具体的、精准的物理动作。
生成式模仿学习 (Generative Imitation Learning)
机器人观看任务的完整演示,通过模仿学习,能生成一系列连贯的动作序列来完成同样的任务。常见的模型有 ACT (Action Transformer) 和 Diffusion Policy。它们不像传统方法只决策当前一步,而是能一次输出一个动作序列。生成式模仿学习赋予了机器人深谋远虑的能力,让它们的动作更加流畅、高效,能够完成更复杂的、需要长序列动作的任务。
Affordance (功能可见性)
Affordance,指一个物体显露出来的、可被交互的属性。简单说,就是让机器人看一眼就知道某件东西的作用,如识别出“门把手是用来拉的”、“开关是用来按的”、“杯子把手是用来握的”。理解了 Affordance,机器人就获得了举一反三的能力。即使它从未见过某个特定样式的椅子,但只要识别出它有“平面可供坐下”的 Affordance,它就知道可以执行“坐”这个动作。这让机器人能够泛化到全新的物体和环境中。
大模型问答(Q&A from LLM)
大模型(LLM)问答可以用于指导机器人的动作。机器人可以针对眼前的物体,向大模型提出非常具体的问题,以获得用于操作的精确信息。例如,机器人可以问:“操作这个物体的接触点、抓取器朝向应该是什么?”模型会直接回答出精确的坐标及方向。
大模型 Prompt 规划 (Prompt Planning from LLM)
大模型可以对机器人的动作进行规划,例如,我们只需要给出一个简单的指令“请把那个蓝色的空盘子递给我”,大模型就能利用其强大的多模态理解和推理能力,将这个复杂任务自动分解成一系列机器人可以理解和执行的简单步骤。
这极大地降低了人类使用机器人的门槛。我们不再需要编写复杂的程序,只需像和人交流一样,用一句话下达一个高级指令,机器人就能自己想出一个完整的行动计划。这是实现机器人自主性的核心能力。
语言矫正 (Language Corrections)
语言矫正可以在机器人执行任务的过程中,直接用口头语言进行实时纠正。例如,当机器人动作有偏差时,人类操作员可以说“你应该往左边一点”,机器人就能理解这个指令,并修正自己的行为。这种技术让机器人具备了在线学习和即时纠错的能力。
世界模型
世界模型,可以理解为机器人在脑中构建的一个关于物理世界的模拟器。它不仅理解世界当前的状态,还能预测“如果我这样做,世界会变成什么样”。 比如,它能预测如果一个球从桌上滚落,它会掉在地上,而不是飞向天花板。拥有了世界模型,机器人就能在行动前进行思考和预演,从而选择最优的行动方案,避免潜在的危险。
参考资料
[1] https://github.com/TianxingChen/Embodied-AI-Guide
[2] https://github.com/TianxingChen/Embodied-AI-Guide/blob/main/files/具身智能基础技术路线-YunlongDong.pdf
[3] https://www.bilibili.com/video/BV1d5ukedEsi/