// Embodied AI · 具身智能学习笔记

具身智能学习笔记

面向具身智能（Embodied AI）方向的中文学习记录：论文精读、源码精读、以及认知科学/理论背景。聚焦 VLA（视觉-语言-动作）模型、世界模型、控制策略等方向，每篇都有架构拆解 / 核心公式 / 与工程实践的连接。

已精读

14+

计划中

覆盖方向

// Recent · 最近更新按更新时间排序

2026-04-18 · 刚完成

π₀ / π₀.5 代码阅读笔记

以 pi0_pytorch.py 为主线：类 MoE 双专家初始化 · Flow Matching 9 阶段训练 · 推理两阶段 + KV cache · Attention mask 块标志推导 · π₀ vs π₀.5 三大差异。含 tab 交互对比。

✓ 已完成源码精读 openpi · PyTorch

2026-04-15 · 刚完成

π₀: A Vision-Language-Action Flow Model

Physical Intelligence 2024 VLA 代表作：PaliGemma backbone + Action Expert + Flow Matching。 §1–§9 全章，含 Fig 1/3/4/5 交互热点、推理 10 步去噪完整拆解、flow loss 四步推导。

✓ 已精读 Physical Intelligence · 2024 VLA · Flow Matching

2026-04 · 更新中

A Path Towards Autonomous Machine Intelligence

LeCun 的 position paper：模块化自主智能架构 + JEPA 非生成式世界模型 + 分层规划。含 §2 六模块、§3 JEPA 完整推导（Fig 8-16 交互讲解）、§4 设计动机与局限。

✓ 已精读 Yann LeCun · 2022 世界模型 · JEPA

// By Direction · 按方向浏览 ✓ 已精读 · ○ 计划中

世界模型 · JEPA 路线

World Model · JEPA Lineage

LeCun 倡导的非生成式联合嵌入预测架构。按 "开山→横向扩展→原理改进" 组织。

① 开山之作

JEPA / H-JEPALeCun 2022 ✓

② 横向扩展（模态/场景/规模）

I-JEPA图像 · Meta 2023 ○ MC-JEPA多任务 · Meta 2023 ○ V-JEPA视频 · Meta 2024 ○ Audio-JEPA音频 ○ Point-JEPA · 3D-JEPA点云 / 3D ○ ACT-JEPA动作预测 ○ V-JEPA 2Meta 2025 ○

③ 原理/架构改进

LeJEPA理论简化 ○ Causal-JEPA因果结构 ○ V-JEPA 2.1 ○ LeWorldModel ○ ThinkJEPA推理型 ○

VLA · 视觉-语言-动作

Vision-Language-Action

把 VLM 作为 backbone，直接从感知+指令映射到机器人动作。当前 embodied 主流路线。

① 主模型

π₀Physical Intelligence 2024 ✓ π₀ / π₀.5 代码阅读openpi · pi0_pytorch.py ✓ RT-2Google DeepMind 2023 ○ OpenVLAKim et al. 2024 ○

② 基础组件

PaliGemmaSigLIP + Gemma ○ Flow MatchingLipman 2023 ○ SigLIP视觉编码器 ○

③ 延伸方向

SayCanLLM 任务分解 ○ Helix / Figure AI ○

控制 · Policy & Planning

Control · Policy / Planning

底层策略网络与经典控制方法。常作为 VLA / 世界模型的下游输出。

① 生成式策略

Diffusion PolicyChi et al. 2023 ○ ACTAction Chunking Transformer ○

② 模型预测控制

MPC / MPPI经典最优控制 ○ TD-MPC2学习型 MPC ○

③ 层次化规划

DirectorHafner et al. 2022 ○

认知科学 · 参考背景

Cognitive Science

从婴幼儿认知、动物智能借鉴经验，指导 embodied AI 的数据/课程/评测设计。

① 发育心理学

婴儿认知发育时间线Dupoux ✓

② 核心概念

Core KnowledgeSpelke & Kinzler ○ Intuitive Physics BenchmarkIntPhys ○

// ABOUT

关于本项目

这是一个个人学习笔记仓库，记录具身智能（Embodied AI）方向的学习过程——不限于论文精读，也包含源码精读、工程实践、认知科学背景等。每篇笔记包含：核心贡献/设计、架构拆解、关键公式或代码、以及与研究/工程实践的联系。使用中文写作，英文专业术语保留对照，方便查阅原文。

如有错误或建议，欢迎通过 GitHub Issues 指出。