面向具身智能(Embodied AI)方向的中文学习记录:论文精读、源码精读、以及认知科学/理论背景。 聚焦 VLA(视觉-语言-动作)模型、世界模型、控制策略等方向,每篇都有架构拆解 / 核心公式 / 与工程实践的连接。
pi0_pytorch.py 为主线:类 MoE 双专家初始化 · Flow Matching 9 阶段训练 ·
推理两阶段 + KV cache · Attention mask 块标志推导 · π₀ vs π₀.5 三大差异。含 tab 交互对比。
这是一个个人学习笔记仓库,记录具身智能(Embodied AI)方向的学习过程——不限于论文精读, 也包含源码精读、工程实践、认知科学背景等。 每篇笔记包含:核心贡献/设计、架构拆解、关键公式或代码、以及与研究/工程实践的联系。 使用中文写作,英文专业术语保留对照,方便查阅原文。
如有错误或建议,欢迎通过 GitHub Issues 指出。