# Nano-vLLM 注释说明 **已添加注释的文件(16个):** | 模块 | 文件 | 注释要点 | |------|------|---------| | 入口 | `__init__.py` | 项目架构和数据流概览 | | 配置 | `config.py`, `sampling_params.py` | 每个参数的含义和作用 | | 引擎 | `sequence.py` | 序列状态机、block_table、序列化机制 | | 引擎 | `block_manager.py` | 前缀缓存原理、哈希链式计算、引用计数 | | 引擎 | `scheduler.py` | prefill/decode调度策略、chunked prefill、抢占机制 | | 引擎 | `model_runner.py` | KV cache分配、CUDA Graph捕获、TP共享内存通信 | | 引擎 | `llm_engine.py` | 引擎初始化流程、step循环、吞吐量统计 | | 模型 | `qwen3.py` | Qwen3架构(GQA、Q/K Norm)、融合模块映射 | | 层 | `attention.py` | Triton kernel写KV cache、Flash Attention两阶段 | | 层 | `linear.py` | 5种并行线性层(列切/行切/融合QKV/融合gate_up) | | 层 | `sampler.py` | Gumbel-like采样方法 | | 层 | `activation.py` | SwiGLU (SiLU * up) | | 层 | `layernorm.py` | 残差融合RMSNorm | | 层 | `embed_head.py` | 词表并行Embedding、LM Head前缀优化 | | 层 | `rotary_embedding.py` | RoPE原理和预计算缓存 | | 工具 | `context.py`, `loader.py` | 全局上下文机制、safetensors权重加载 |