// Embodied AI · 具身智能学习笔记

具身智能学习笔记

面向具身智能(Embodied AI)方向的中文学习记录:论文精读、源码精读、以及认知科学/理论背景。 聚焦 VLA(视觉-语言-动作)模型、世界模型、控制策略等方向,每篇都有架构拆解 / 核心公式 / 与工程实践的连接。

4
已精读
14+
计划中
4
覆盖方向
// Recent · 最近更新 按更新时间排序
2026-04-18 · 刚完成
π₀ / π₀.5 代码阅读笔记
pi0_pytorch.py 为主线:类 MoE 双专家初始化 · Flow Matching 9 阶段训练 · 推理两阶段 + KV cache · Attention mask 块标志推导 · π₀ vs π₀.5 三大差异。含 tab 交互对比。
✓ 已完成 源码精读 openpi · PyTorch
2026-04-15 · 刚完成
π₀: A Vision-Language-Action Flow Model
Physical Intelligence 2024 VLA 代表作:PaliGemma backbone + Action Expert + Flow Matching。 §1–§9 全章,含 Fig 1/3/4/5 交互热点、推理 10 步去噪完整拆解、flow loss 四步推导。
✓ 已精读 Physical Intelligence · 2024 VLA · Flow Matching
2026-04 · 更新中
A Path Towards Autonomous Machine Intelligence
LeCun 的 position paper:模块化自主智能架构 + JEPA 非生成式世界模型 + 分层规划。 含 §2 六模块、§3 JEPA 完整推导(Fig 8-16 交互讲解)、§4 设计动机与局限。
✓ 已精读 Yann LeCun · 2022 世界模型 · JEPA
// By Direction · 按方向浏览 ✓ 已精读 · ○ 计划中
世界模型 · JEPA 路线
World Model · JEPA Lineage
LeCun 倡导的非生成式联合嵌入预测架构。按 "开山→横向扩展→原理改进" 组织。
VLA · 视觉-语言-动作
Vision-Language-Action
把 VLM 作为 backbone,直接从感知+指令映射到机器人动作。当前 embodied 主流路线。
控制 · Policy & Planning
Control · Policy / Planning
底层策略网络与经典控制方法。常作为 VLA / 世界模型的下游输出。
认知科学 · 参考背景
Cognitive Science
从婴幼儿认知、动物智能借鉴经验,指导 embodied AI 的数据/课程/评测设计。
// ABOUT

关于本项目

这是一个个人学习笔记仓库,记录具身智能(Embodied AI)方向的学习过程——不限于论文精读, 也包含源码精读、工程实践、认知科学背景等。 每篇笔记包含:核心贡献/设计、架构拆解、关键公式或代码、以及与研究/工程实践的联系。 使用中文写作,英文专业术语保留对照,方便查阅原文。

如有错误或建议,欢迎通过 GitHub Issues 指出。