大模型推理引擎完整技术栈


基础知识

模块子模块技术概念/组件详细说明
算法基础LLM 原理Transformer 架构Self-Attention · Multi-Head · FFN · Residual
推理两阶段Prefill (compute-bound) · Decode (memory-bound)
模型架构位置编码RoPE · ALiBi · YaRN 长上下文扩展
现代组件GQA · MQA · MLA · MoE · RMSNorm · SwiGLU
编程基础GPU 编程CUDAThread/Block/Warp · Shared Memory · Roofline Model · Nsight
框架PyTorchAutograd · nn.Module · torch.compile · DDP · FSDP
性能指标吞吐量ThroughputThroughput (tok/s) · QPS · Concurrency
延迟LatencyTTFT · TPOT · ITL · E2E Latency · P99

内存管理

模块核心方案技术特性详细说明
KV Cache基础显存分析2×n_layers×n_heads×seq_len×head_dim×dtype2 \times n\_layers \times n\_heads \times seq\_len \times head\_dim \times dtype
PagedAttentionvLLM 方案Block 级内存管理 · 消除碎片化 · 非连续 KV 存储
RadixAttentionSGLang 方案Radix Tree 前缀自动复用 · LRU Eviction · 5x 吞吐提升
HiCache多级层缓存GPU \rightarrow CPU \rightarrow Disk · 可插拔后端 · 运行时 Attach/Detach
KV Cache 量化FP8 KV显存减半FlashInfer / FA3 / Triton 支持 · 精度损失小
FP4 KV显存 1/4FA4 / FlashMLA / Triton 支持 · Blackwell 原生
Page Size精度+性能权衡page=1 最大复用 · 大 page 提升 kernel 性能
Cache 路由Cache-Aware 路由Approximate Radix Tree · 命中率 20% \rightarrow 75% · Rust 实现
Prefix CacheSystem Prompt 复用 · Few-Shot 复用 · Multi-Turn 复用

调度系统

模块核心方案策略说明详细说明
BatchingContinuous BatchingIteration-level每步可插入/移除请求 · GPU Slot 零空转
Chunked Prefill长 Prompt 分段与 Decode 混合执行 · Budget 策略 · 防止 Decode 饥饿
OverlapZero-OverheadCPU-GPU OverlapFuture Token · CUDA Event 同步 · GPU 零空闲
Two-Batch OverlapPrefill + Decode 并行Compute \leftrightarrow Memory 互补 · --enable-two-batch-overlap
请求管理优先调度Cache 命中率优先 · 等待时间 · 内存约束
Preemption请求抢占Swap (GPU \leftrightarrow CPU) · Recompute

计算优化

模块优化方案技术路径详细说明
CUDA GraphDecode Graph标准 Capture/ReplayBucket Sizes + Padding · Shared Memory Pool · ~5μ\mus Replay
Piecewise GraphPrefill 分段 CaptureFX Graph 拆分 · 按段 Capture · torch.compile 集成
torch.compile编译执行TorchDynamo \rightarrow FX Graph \rightarrow Inductor \rightarrow Triton Kernel
Attention KernelFlashAttentionIO-Aware TilingOnline Softmax · 不存中间矩阵 · FA1 \rightarrow FA2 \rightarrow FA3 \rightarrow FA4
FlashInferAmpere/Blackwell 默认Native Paging · FP8 KV · MLA 支持 · Speculative
Triton Backend跨平台 FallbackCUDA / ROCm / NPU / CPU · Python 编写 GPU Kernel
TRTLLM / 其他硬件专用TRTLLM MHA/MLA (Blackwell) · FlashMLA · Cutlass MLA
Kernel 融合Fused Ops减少 Launch + IOFused RMSNorm · Fused SwiGLU · Fused RoPE · Fused Softmax
Custom AllReduceBypass NCCLCUDA IPC 两阶段 · 小 Tensor 低延迟 · NVLink 直连
sgl-kernelSGLang 自定义独立 PyPI 包 · CUDA + Triton · JIT Kernel (tvm-ffi)

并行策略

模块并行方案切分/执行维度详细说明
模型并行Tensor Parallelism层内切分权重按列/行切分 · AllReduce 聚合 · 需要 NVLink
Pipeline Parallelism层间切分Chunked PP · 百万 Token 长上下文 · 1F1B 调度
数据并行DP + Gateway多副本SGLang Model Gateway · Cache-Aware 路由 · Rust 实现
DP AttentionMLA 专用Attention DP \rightarrow AllGather \rightarrow MoE TP \rightarrow Redistribute · 1.9x
Expert 并行FusedMoE5 阶段 PipelineDispatch \rightarrow PrePermute \rightarrow GEMM \rightarrow PostPermute \rightarrow Combine
通信后端7 种 All-to-AllDeepEP · Mooncake · NIXL · FlashInfer · Mori · Ascend
优化Overlap + 均衡TBO · SBO · EPLB · DeepGEMM (FP8 GEMM)
多节点Multi-NodeNCCL · InfiniBand · NVLink · --nnodes · --nccl-init-addr

加速技术

模块加速方案技术原理详细说明
Speculative DecodingEAGLEDraft + VerifyEAGLE-2 / EAGLE-3 · Tree Verification · SpecForge 训练
MTP模型内置DeepSeek / MiMo 内置 MTP Head · 无需额外 Draft Model
Ngram零额外开销从已生成 Token 的 Ngram Cache 检索 Draft · 无需模型
Standalone传统方案小模型 Draft + 大模型 Verify · 2-3x Latency 改善
权重量化FP8 / FP4低精度推理W8A8 · NVFP4 · CUTLASS FP8 Block-Scaled GEMM
4-bitWeight-OnlyAWQ · GPTQ · Marlin Kernel · W4A16
混合精度W4A8FP84-bit Weight + FP8 Activation · MoE 专用 CUTLASS Kernel
Structured OutputGrammar Backend约束生成XGrammar (10x 加速) · Lguidance · Outlines
Jump-Forward跳过确定 TokenCompressed FSM · 确定性序列直接生成 · 不走模型

架构设计

模块设计方案架构说明详细说明
DisaggregationPD 分离Prefill + Decode独立 GPU Pool · KV Transfer · Mooncake / NIXL
EPD 分离VLM 三阶段Encoder + Prefill + Decode · 弹性 Encoder 扩缩
KV Transfer传输后端MooncakeTransferEngine (RDMA) · NIXL (UCX) · Ascend
RL 集成引擎控制Sleep/Wake释放 KV Cache/权重 · torch_memory_saver · 不重启 Server
权重更新三种策略From Disk · From Tensor (内存共享) · From Distributed (NCCL)
Model Gateway路由控制平面Rust 实现 · gRPC · Cache-Aware · JWT/OIDC · MCP
生产特性Circuit Breaker · 限流 · 40+ Prometheus 指标 · 动态扩缩