理解 torch.compile 的完整编译栈——Dynamo、Inductor、Triton,以及 TVM 和 TensorRT 的定位。 动手看 FX Graph、看 Triton kernel、排查 Graph Break。
torch.compile 的三段流水线(捕图 → 融合 → 生成 kernel)。IR 到底是什么,它在哪些层次存在。TVM、TensorRT 和 Triton 各自做什么——以及为什么 TVM 不适合加速训练。
用 TORCH_LOGS 看 FX Graph、看 Triton kernel 生成、排查 graph break。终端里的实操课——复制代码到你的环境跑。
Autograd tape 机制(前向记录→反向回放),AOTAutograd 如何从动态 tape 推导静态 backward 联合图,所有 backend 一张表,Inductor 背景(Meta/PyTorch 2.0),TVM 为什么五个死结让它无法复用 AOTAutograd 做训练。
每课只讲一个主题,图文配合,读完不超 5 分钟。概念课建立 mental model,动手课教你实操命令。
每课末尾有选择题。建议认真做——提取练习是加深记忆最有效的方式之一。
标了"动手"标签的课需要你在自己的 PyTorch 环境里跑代码。看到真实的输出比只看文字记得牢得多。
每节课里都有提醒——在 Claude Code 里直接问就行。这节课模糊的地方、你的代码实际跑的 graph break——都可以拿来咨询。
以下内容来自 MISSION.md
✓ 用自己的话讲清楚 torch.compile 的完整编译流程
✓ 解释 IR 在编译栈中的角色
✓ 对比 TVM vs Triton vs TensorRT 的训练/推理适用场景
✓ 对你的 PyTorch 训练任务做出"要不要换 TVM"的技术判断