本课程在 60 分钟内,带带北京信息科技大学同学,把"算力中心"这件事 从模型规格 → 到芯片选型 → 到集群拓扑 → 到机房液冷 → 到 TCO 经济账 完整拆开讲透。所有数字都由本仓库内的 Python 模型可复算输出。
在 ChatGPT 之后,模型能力与训练算力呈对数线性关系。算力规模决定了一个国家、一所大学、一个公司 能否"做出能力",而不是只能"接调用"。
过去十年的 AI 突破,本质是把"摩尔定律的红利 × 算法的进步 × 数据的丰度" 三个变量同时拉满后取得的。
| 时代 | 代表模型 | 训练算力 | 典型集群 | 能力跃迁 |
|---|---|---|---|---|
| 2017–2019 | BERT-Large / GPT-2 | ~10²⁰ FLOPs | 16 × V100 | 能"懂语言" |
| 2020–2022 | GPT-3 / PaLM | ~3×10²³ FLOPs | 10 K × A100 | 能"涌现" |
| 2023–2024 | GPT-4 / Llama-3 / GLM-4 | ~2×10²⁵ FLOPs | 25 K × H100 | 能"推理" |
| 2025–2026 | GLM-5.1 / GPT-5 / Llama-4 | ~10²⁵–10²⁶ FLOPs | 100 K × B200/GB200 | 能"自主行动" |
数据来源:[R2] Kaplan, [R32] OpenAI GPT-4 Tech Report, [R33] Llama 3 Herd, [R3][R4] Zhipu, 行业普遍估计。
| 组织 | 项目 / 集群 | 地点 | GPU 估算 | 峰值 BF16 算力 |
|---|---|---|---|---|
| xAI | Colossus 1 | Memphis, TN | 100 000 × H100 | ~99 EFLOPS |
| Meta | "Hyperion" SuperCluster | Louisiana | 350 000 × H100 (在建至 2026) | ~346 EFLOPS |
| Microsoft / OpenAI | Stargate (Phase 1) | Abilene, TX | ~100 000 × GB200 | ~250 EFLOPS |
| TPU v5p Pod (~) | Ohio / Iowa | ~50 000 × TPUv5p | ~230 EFLOPS | |
| Anthropic / AWS | "Project Rainier" | Indiana | 数十万 × Trainium 2 | ~100+ EFLOPS |
| 字节跳动 | "Doubao Cluster" | 新加坡 / 马来 | 数万 × H100/H200 | ~30+ EFLOPS |
| 阿里巴巴 | 张北智算中心 | 河北张北 | 数万级 H800 / B200 | ~25 EFLOPS |
| 智谱 / 字节 / 华为联合训练资源 | — | 北京 / 贵州 / 内蒙 | — | ~50 EFLOPS 国内总和 |
数据来源:Semianalysis 2025 公开估计 [R22], 各公司财报与发布会。"EFLOPS" 取 dense BF16, MFU=1 理论值。
你将在接下来 55 分钟里,沿着这条主线走完一遍:
模型规格 → 算力 (FLOPs) → GPU 数 → 集群拓扑 → 显存/并行 → 数据/存储
↓
电力/制冷 → 机房 → CAPEX/OPEX → TCO
GLM-5.1 截至本课程编写时(2026-04)尚未官方发布。我们基于 Zhipu AI 已公开的 GLM-4.5/4.6 架构与 全球同代竞品 (DeepSeek-V3 [R5]、Llama-4、Qwen3、Kimi K2),给出 三档工程化外推。
| 版本 | 发布 | 架构 | 总参 / 激活 | 训练 token | 开源 |
|---|---|---|---|---|---|
| GLM-130B | 2022.08 | Dense | 130 B / 130 B | ~0.4 T | ✔ |
| GLM-4 / GLM-4-Air | 2024.01 | Dense | ~70 B | ~10 T | 部分 |
| GLM-4.5 | 2025.07 | MoE | 355 B / 32 B | ~15 T | ✔ Apache 2.0 |
| GLM-4.6 | 2025.09 | MoE + Long Context | 355 B / 32 B | ~17 T | ✔ |
| GLM-5.1 (推断) | ~2026 | MoE + Multi-modal | ~1 T / 64 B | ~20 T | — |
来源:[R3][R4] Zhipu 官方仓库与博客。
| 档位 | 总参 N | 激活 Nact | 层数 | hidden | experts × top_k | 上下文 | 训练 tokens |
|---|---|---|---|---|---|---|---|
| 保守 Conservative | 600 B | 40 B | 72 | 8 192 | 128 × 8 | 256 K | 12 T |
| 基准 Baseline ★ | 1.0 T | 64 B | 88 | 10 240 | 160 × 8 | 512 K | 20 T |
| 前沿 Frontier | 2.0 T | 128 B | 120 | 12 288 | 256 × 8 | 1 M | 40 T |
每个 Token 经过 Router (路由器) 决定送到 8 / 160 个专家中的若干个,整体激活参数仅 6.4 % 但模型容量是其 16×。
等价的 FLOPs:
$$ \text{FLOPs}_{\text{forward}} \approx 2 \cdot N_{\text{act}} \cdot D $$
但显存占用是 总参数 N,且专家间通信变成 All-to-All(§6 详细讨论)。
采用 RoPE / NoPE 混合 + Ring Attention / DeepSpeed Ulysses [R24] 切分序列维度。核心代价:KV-cache 与 attention FLOPs 都随 L² 增长。
models/constants.py 修改 SCENARIOS 后 python -m models.run_all 即可全站重算。
Hoffmann 等人 2022 [R1] 提出的 Chinchilla 定律给了我们一把"工程标尺"。 本节用 1 个公式 + 1 个互动计算器,把"1 T 模型 = 多少 GPU·小时"算清楚。
令模型激活参数为 $N_{\text{act}}$,训练数据 token 数为 $D$,每参数每 token 的浮点运算 ≈ 6(前向 2 + 反向 4):
$$ C_{\text{train}} \;\approx\; 6 \cdot N_{\text{act}} \cdot D \quad(\text{Hoffmann 2022, Eq. 1})$$
Chinchilla 给出"compute-optimal"配比 $D \approx 20 N$;但对 MoE 模型业界经验取 $D \approx 20 N_{\text{total}}$(即每个总参数仍配 20 个 token,避免 router 退化)。
工程现实中还要叠加额外开销:
合并系数约 1.33×,即实际预算用 $C_{\text{eff}} = 8 \cdot N_{\text{act}} \cdot D$。
$$ C_{\text{eff}} \;=\; 8 \times 6.4\!\times\!10^{10} \times 2.0\!\times\!10^{13} \;=\; 1.024\!\times\!10^{25} \text{ FLOPs} $$
Hopper (H100/H200) 与 Blackwell (B200/GB200) 是 2026 年训练大模型的两个主选。 本节给出"算力 / 显存 / 显存带宽 / NVLink / 单价 / 功耗"的六维对比,并给出我们的选型结论。
| 场景 | 推荐 | 理由 |
|---|---|---|
| 已有 H100 卡 + 中等预算 | H100 + IB NDR | 性价比最稳,软件栈最成熟 |
| 显存紧、长上下文需求 (≥128K) | H200 / B200 | HBM 容量翻倍,可少切 PP 减通信 |
| 2025 起新建训练集群、追求最快 time-to-token | B200 + IB XDR | 训练速度 2.3× H100,单 PFLOP 价格更低 |
| 追求极致性能、能买到货、有 132 kW/柜液冷条件 | GB200 NVL72 | 72 GPU 全在一个 NVLink 域,TP×PP×EP 几乎"零通信" |
| 纯推理服务(GLM-5.1 上线) | H200 / B200 (FP8/FP4) | HBM 带宽决定 decode 吞吐 |
单 GPU 算力再高也只是孤岛。现代大模型训练 95 % 的工程难度在系统架构与通信网络上。 本节先给出整体架构总览,再自底向上:节点 → 机柜 → NVLink 域 → InfiniBand Fat-tree。
下图把"应用 → 框架 → 算力 → 网络 → 存储 → 设施"6 层堆栈与"北京主集群 + 乌兰察布备份/推理"双站部署一次画清。 图中每个数字都与第 ③-⑩ 章可复算输出一致。
| 组件 | 规格 | 数量 | 说明 |
|---|---|---|---|
| GPU | NVIDIA B200 SXM | 8 | NVSwitch 全互联,1.8 TB/s NVLink-5 |
| NIC | ConnectX-8 InfiniBand XDR 800 G | 8 | 每 GPU 1 张,PCIe 5.0 x16 |
| CPU | Intel Xeon Platinum 8568Y+ | 2 | 2 × 64 core, 共 128 核 |
| 系统内存 | DDR5-5600 | 2 TB | 32 × 64 GB DIMM |
| 本地 NVMe | U.2 PCIe 5.0 SSD | 30 TB | scratch + dataset shard cache |
| 带外管理 | BMC + Redfish | 1 | 纳入 Slurm/K8s |
| 整机功率 | — | ~14.3 kW | 液冷板覆盖 GPU + CPU |
| 整机单价 | — | ~410 万 ¥ | 含 BOM + OEM 服务 |
HGX B200 节点 8U,单柜 4 个节点 (32 GPU) 风冷上限。改用 DLC 液冷板可塞 8 节点 (64 GPU),单柜功率约 80 kW,需要液冷分配单元 (CDU)。
对应 2 048 GPU 集群 = 32 个液冷机柜 + 4 个网络柜 + 4 个存储柜 ≈ 40 柜。规划面积约 600 m²(含冷热通道、布线、维护通道)。
非阻塞 (1:1) Fat-tree 是大规模训练事实标准。2 048 GPU × 1 NIC/GPU = 2 048 上行端口,按 NDR 64-port / XDR 144-port 交换机:
NVIDIA 2024 推出的 RoCEv2 以太网产品线,主打"InfiniBand 95 % 性能、以太网生态"。同等带宽 CAPEX 低 15–20 %,运维更友好但端到端时延略高。课程示例 §10 给出 IB-XDR / Spectrum-X 800G 两条 TCO 路径。
现代大模型训练是 5 ~ 6 维并行的"组合俄罗斯方块"。 本节讲清 DP / TP / PP / EP / SP / CP 各自切什么、何时用、显存怎么算。
| 维度 | 切什么 | 解决 | 通信 | 典型大小 |
|---|---|---|---|---|
| DP (Data Parallel) | 不同数据样本 | 提高吞吐 | 梯度 AllReduce | 16 ~ 256+ |
| TP (Tensor Parallel) | 每层矩阵切列 | 显存 / 算力 | 每层 AllReduce | 8 (NVLink 域内) |
| PP (Pipeline Parallel) | 按层数切阶段 | 显存 | 阶段间 P2P | 4 ~ 16 |
| EP (Expert Parallel) | 不同专家 | MoE 显存 | All-to-All | 8 ~ 32 |
| SP (Sequence Parallel) | LayerNorm / Dropout 序列维 | 激活显存 | 融入 TP | = TP |
| CP (Context Parallel) | 注意力序列维 | 长上下文 | Ring P2P | 1 / 2 / 4 / 8 |
原始混合精度 Adam 训练每参数需 18 字节 (BF16 weight + BF16 grad + FP32 master + Adam m + Adam v + buffer)。ZeRO 三阶段递进切分:
| 阶段 | 切谁 | 每参数显存 (DP=16) |
|---|---|---|
| ZeRO-0 (DDP) | 不切 | 18 B |
| ZeRO-1 (本课用) | Optimizer state ÷ DP | 2 + 2 + 12/16 = 4.75 B |
| ZeRO-2 | + gradient ÷ DP | 2 + 2/16 + 12/16 = 2.875 B |
| ZeRO-3 | + weight ÷ DP | 18/16 ≈ 1.125 B |
我们选择 TP=8, PP=8, EP=8, DP=32, CP=1(总计 8×8×8×32 = 16 384 进程位 ÷ 8 [TP×PP 重叠] = 2 048 GPU)。 在 NVLink 8 GPU 域内承担 TP,跨节点用 PP + EP,跨子集群用 DP。
训练过程中,存储不能成为短板。本节给出三层存储拓扑、Checkpoint 写入预算、数据预处理流水。
| 项 | 大小 | 说明 |
|---|---|---|
| 已分词 (tokenized) 数据集 | ~80 TB | 20 T tokens × 4 字节 |
| 原始抓取语料 raw corpus | ~2 PB | 含多版本 Common Crawl + 中文垂域去重前 |
| 单次完整 Checkpoint (1 T 模型) | ~16 TB | 16 字节/参数 × 1 T (含 FP32 master + Adam 状态) |
| Checkpoint 保留 20 份 | ~320 TB | 训练 90 天每 4h 保留近期 20 个 |
| 层 | 方案 | 容量 | 带宽 | 用途 |
|---|---|---|---|---|
| Tier-0 热 | WekaFS 全 NVMe | 5 PB | 2 000 GB/s 读 | 当前 batch shuffle + 实时 checkpoint |
| Tier-1 温 | Lustre + DDN ES400NVX2 | ~50 PB | 1 200 GB/s 读 | 多版本数据集 + 全部 ckpt |
| Tier-2 冷 | Ceph QLC 对象存储 | ~100 PB | 200 GB/s 读 | 原始抓取 + 历史模型 |
$$ T_{\text{ckpt}} = \frac{16\text{ TB}}{1.5\text{ TB/s}} \approx 11 \text{ s} $$
WekaFS 写吞吐 1.5 TB/s 时单次 ckpt ≈ 11 秒;若每 4 h 一次,则训练 stall 占比 = 11 / 14 400 ≈ 0.08 %,可忽略。 关键是要用 NVIDIA Magnum IO + GPUDirect Storage (GDS) [R18] 让 GPU HBM 直接写存储,绕开 CPU 内存拷贝。
Common Crawl + 垂域抓取
│
▼
[1] 去重 (MinHash + LSH, 1500 GPU·h)
│
▼
[2] 质量过滤 (规则 + small classifier, ~500 GPU·h)
│
▼
[3] 安全过滤 (NSFW / 隐私 / 版权, GPT-4 蒸馏小模型评分)
│
▼
[4] 多语言混合配比 (中文 30 % / 英文 50 % / 代码 15 % / 数学 5 %)
│
▼
[5] 分词 (BPE/SentencePiece, 词表 200K) → uint32 token IDs
│
▼
Tier-1 Lustre ←── 80 TB binary shards (每 shard 4 GB, 共 ~20 000 个)
硬件再贵也是一次性,电力是无限期的"温水煮青蛙"。本节用 PUE 模型把账算到 kWh、t CO₂ 一级。
$$ E_{\text{annual}} = P_{\text{IT}} \cdot \text{PUE} \cdot 8760 $$
| 方案 | PUE | 适用单柜功率 | WUE | 初始投资 | 评价 |
|---|---|---|---|---|---|
| 风冷 + 冷通道封闭 | 1.40 | ≤ 35 kW | ~0 | 低 | 过时;H100 还能用,B200/GB200 上不了 |
| 板式液冷 DLC | 1.15 | 80–100 kW | ~0.3 L/kWh | 中 | 主流方案,B200/GB200 最经济 |
| 单相浸没式 | 1.08 | 200 kW+ | ~0 | 高 | 极致 PUE;维护门槛高,占地大 |
推理是吃 HBM 带宽的活,模型上线决定了用户体验与单 token 成本。
| 阶段 | 瓶颈 | 计算量 | 优化重点 |
|---|---|---|---|
| Prefill (首 token 前) | 算力 (TFLOPS) | 2·Nact·Lin | FP8 / FP4、长 prompt 切片 |
| Decode (生成中) | HBM 带宽 | 2·Nact per token | KV-cache 复用、speculative decoding |
每请求 KV 字节 (使用 GQA, 每 8 个 head 共享 K/V):
$$ \text{KV}_{\text{req}} = 2 \cdot L \cdot \frac{n_h}{8} \cdot d_h \cdot S \cdot 2 \;\text{bytes (BF16)} $$
Baseline 88 层 × 80 head ÷ 8 × 128 head_dim × 8K seq × 2 (K + V) × 2 (BF16) ≈ 720 MB / req。
| 框架 | 来源 | 特长 | 选型场景 |
|---|---|---|---|
| vLLM [R15] | UC Berkeley → 社区 | PagedAttention, 跨请求 KV 复用,开源生态最大 | 研发 / 二次开发 |
| TensorRT-LLM | NVIDIA | FP8/FP4 内核手工调优,最快但闭源 | 生产推理 / 极致 QPS |
| NVIDIA Dynamo [R26] | NVIDIA 2025 | Disaggregated Prefill/Decode, KV-cache 跨节点池化 | 大规模在线服务 |
| Triton Inference Server | NVIDIA | 多模型多框架统一 serving 层 | 企业网关 / 多模型混部 |
| SGLang | UC Berkeley | RadixAttention,结构化输出最快 | Agent / Tool calling 重场景 |
三年总拥有成本 (TCO) = CAPEX 一次性投入 + 3 × OPEX 年运营。本节给出可拖动的预算计算器。
注:滑块按 baseline 线性外推,仅作量级估计;正式预算需运行 python -m models.tco 重新计算。
| 项 | 占比 (典型) | 说明 |
|---|---|---|
| GPU 服务器 | ~ 65 % | HGX B200 整机 BOM |
| 网络 (IB / NIC / 线缆) | ~ 10 % | Fat-tree 三层非阻塞 |
| 存储 | ~ 8 % | 三层存储池 |
| 机房设施 (土建 / UPS / 配电 / CDU) | ~ 12 % | 液冷一次性 |
| 软件 (NVAIE / Slurm Pro / observability) | ~ 5 % | 3-5 千 ¥ / GPU 一次性 |
| 项 | 说明 |
|---|---|
| 电力 | P × PUE × 8760 × 单价;占 OPEX 25–35 % |
| 人员 | 每 1 000 GPU 配 ~ 8 名 SRE / 平台 / 数据 / 网络 / 安全 (60 万 ¥/年/人) |
| 硬件维保 | 约 CAPEX × 4 % |
| 软件订阅 | NVAIE / 监控 / W&B 类工具,按 GPU 计 |
| 网络出口 | 100 Gbps 国内运营商专线 ≈ 400 万 ¥/年 |
这是给立项 PMO 与校级评审用的一页路线图,附主要风险与缓解策略。
| 风险 | 影响 | 缓解 |
|---|---|---|
| 美国出口管制升级 (B200/GB200 禁运) | 采购停摆 | 渠道分散;关注国内华为 Ascend 910C / 寒武纪 / 摩尔线程国产卡作为 B 计划 |
| 电力配额受限 | 规模缩水 | 双站设计 (北京 + 西部);分阶段采购;优先采用液冷降低单柜功率密度 |
| 训练发散 / loss spike | 数十天算力浪费 | 更密 ckpt + 多副本快照;遇 spike 立即回滚;引入 LayerNorm gradient clipping |
| NVLink / IB 链路抖动 | MFU 降 15-30 % | NCCL telemetry 监控;NVL72 单柜训练域内通信本质免疫;配置链路冗余 |
| 人员经验不足 | 故障恢复慢 | 外聘 NVIDIA 专业服务,与商汤 / 智谱 / 字节技术伙伴共建培训 |
| 数据合规 (隐私 / 版权) | 下线风险 | 数据治理委员会;采用获得授权的中文垂域数据;公开可复算训练数据来源清单 |