AI 编译器：从 PyTorch 到底层硬件

课程目录

torch.compile 的三段流水线（捕图 → 融合 → 生成 kernel）。IR 到底是什么，它在哪些层次存在。TVM、TensorRT 和 Triton 各自做什么——以及为什么 TVM 不适合加速训练。

用 TORCH_LOGS 看 FX Graph、看 Triton kernel 生成、排查 graph break。终端里的实操课——复制代码到你的环境跑。

Autograd tape 机制（前向记录→反向回放），AOTAutograd 如何从动态 tape 推导静态 backward 联合图，所有 backend 一张表，Inductor 背景（Meta/PyTorch 2.0），TVM 为什么五个死结让它无法复用 AOTAutograd 做训练。

torch.compile、Dynamo、IR、PTX、TVM… 每个术语的精确定义和使用边界。随课程更新。

论文、文档、社区——我们编写课程时参考的高质量外部资源。

每课只讲一个主题，图文配合，读完不超 5 分钟。概念课建立 mental model，动手课教你实操命令。

每课末尾有选择题。建议认真做——提取练习是加深记忆最有效的方式之一。

标了"动手"标签的课需要你在自己的 PyTorch 环境里跑代码。看到真实的输出比只看文字记得牢得多。

每节课里都有提醒——在 Claude Code 里直接问就行。这节课模糊的地方、你的代码实际跑的 graph break——都可以拿来咨询。

以下内容来自 MISSION.md

✓ 用自己的话讲清楚 torch.compile 的完整编译流程
✓ 解释 IR 在编译栈中的角色
✓ 对比 TVM vs Triton vs TensorRT 的训练/推理适用场景
✓ 对你的 PyTorch 训练任务做出"要不要换 TVM"的技术判断