# Mission: 理解并加速 PyTorch 模型训练编译栈

## Why
训练 PyTorch 模型，已经用了 `torch.compile`（默认 Triton backend），但训练速度仍然不理想。想搞懂编译栈从 PyTorch 到底层硬件的完整链路（Dynamo → IR → TVM → Kernel），从而判断 TVM 或其他方案能否进一步加速训练。

## Success looks like
- 能用自己的话讲清楚 `torch.compile` 的完整编译流程（从 Python 代码到 GPU Kernel）
- 能解释 IR 在编译栈中的角色和存在的层次
- 能对比 TVM vs Triton vs TensorRT 三者在训练/推理场景下的优劣
- 能对"给当前训练任务换 TVM backend"做出清晰的技术判断（值不值得、为什么）

## Constraints
- 已经在用 PyTorch + Triton backend（torch.compile 默认配置）
- 主要场景是**训练加速**，推理加速是次要关注
- 中文授课，术语可保留英文
- 动手能力：能跑 PyTorch 代码、能看命令行输出

## Out of scope
- 手写 CUDA kernel / Triton kernel
- TVM Relay/Relax 手写 schedule 和 auto-tuning 配置
- ONNX 导出和纯推理部署优化（TensorRT 做了解即可，不深入）