时代	代表模型	训练算力	典型集群	能力跃迁
2017–2019	BERT-Large / GPT-2	~10²⁰ FLOPs	16 × V100	能"懂语言"
2020–2022	GPT-3 / PaLM	~3×10²³ FLOPs	10 K × A100	能"涌现"
2023–2024	GPT-4 / Llama-3 / GLM-4	~2×10²⁵ FLOPs	25 K × H100	能"推理"
2025–2026	GLM-5.1 / GPT-5 / Llama-4	~10²⁵–10²⁶ FLOPs	100 K × B200/GB200	能"自主行动"

数据来源：[R2] Kaplan, [R32] OpenAI GPT-4 Tech Report, [R33] Llama 3 Herd, [R3][R4] Zhipu, 行业普遍估计。

1.2 全球前十算力集群（2025 年公开估计）

组织	项目 / 集群	地点	GPU 估算	峰值 BF16 算力
xAI	Colossus 1	Memphis, TN	100 000 × H100	~99 EFLOPS
Meta	"Hyperion" SuperCluster	Louisiana	350 000 × H100 (在建至 2026)	~346 EFLOPS
Microsoft / OpenAI	Stargate (Phase 1)	Abilene, TX	~100 000 × GB200	~250 EFLOPS
Google	TPU v5p Pod (~)	Ohio / Iowa	~50 000 × TPUv5p	~230 EFLOPS
Anthropic / AWS	"Project Rainier"	Indiana	数十万 × Trainium 2	~100+ EFLOPS
字节跳动	"Doubao Cluster"	新加坡 / 马来	数万 × H100/H200	~30+ EFLOPS
阿里巴巴	张北智算中心	河北张北	数万级 H800 / B200	~25 EFLOPS
智谱 / 字节 / 华为联合训练资源	—	北京 / 贵州 / 内蒙	—	~50 EFLOPS 国内总和

数据来源：Semianalysis 2025 公开估计 [R22], 各公司财报与发布会。"EFLOPS" 取 dense BF16, MFU=1 理论值。

ZHIPU 视角智谱 GLM-4.5 / 4.6 已开源 (Apache 2.0, 355 B-A32B MoE)，训练成本据 Zhipu 公告控制在 5 000 万 ~ 1 亿元区间。 下一代 GLM-5.1 将进入 1 T 量级，需要 1 000 ~ 4 000 张 B200 同时跑约 90 天，对国内任一所大学/公司都是大考。

1.3 中国"算网融合"政策与"东数西算"

东数西算 (2022) ：8 大国家枢纽（京津冀、长三角、粤港澳、成渝 + 内蒙、贵州、甘肃、宁夏），10 大集群。西部集群 PUE 目标 ≤ 1.15。
智算中心专项 (2024) ：工信部"绿色数据中心建设三年行动计划"[R29]，要求 2026 年新建数据中心 PUE ≤ 1.25，国家枢纽 ≤ 1.20。
"全国一体化算力网" (2024-)：建设算力调度平台，跨区域调度训练任务。北京 → 内蒙乌兰察布的回程时延约 8–12 ms（光纤 1 200 km），适合非强延迟敏感的 RLHF / 蒸馏。

本课立场我们将设计一座"中央 1 个核心训练集群（北京近郊液冷数据中心）+ 1 个西部备份/推理集群（乌兰察布）" 的双站方案，既符合"东数西算"政策，也满足北京周边高校/企业的低延迟推理。

1.4 给同学的认知地图

你将在接下来 55 分钟里，沿着这条主线走完一遍：

模型规格 → 算力 (FLOPs) → GPU 数 → 集群拓扑 → 显存/并行 → 数据/存储
                                              ↓
                                         电力/制冷 → 机房 → CAPEX/OPEX → TCO

02 GLM-5.1 · MODEL ANATOMY

GLM-5.1 是什么样的模型？

GLM-5.1 截至本课程编写时（2026-04）尚未官方发布。我们基于 Zhipu AI 已公开的 GLM-4.5/4.6 架构与全球同代竞品 (DeepSeek-V3 [R5]、Llama-4、Qwen3、Kimi K2)，给出 三档工程化外推。

2.1 GLM 家族演进

版本	发布	架构	总参 / 激活	训练 token	开源
GLM-130B	2022.08	Dense	130 B / 130 B	~0.4 T	✔
GLM-4 / GLM-4-Air	2024.01	Dense	~70 B	~10 T	部分
GLM-4.5	2025.07	MoE	355 B / 32 B	~15 T	✔ Apache 2.0
GLM-4.6	2025.09	MoE + Long Context	355 B / 32 B	~17 T	✔
GLM-5.1 (推断)	~2026	MoE + Multi-modal	~1 T / 64 B	~20 T	—

来源：[R3][R4] Zhipu 官方仓库与博客。

2.2 三档参数假设（本课主用 Baseline）

档位	总参 N	激活 N_act	层数	hidden	experts × top_k	上下文	训练 tokens
保守 Conservative	600 B	40 B	72	8 192	128 × 8	256 K	12 T
基准 Baseline ★	1.0 T	64 B	88	10 240	160 × 8	512 K	20 T
前沿 Frontier	2.0 T	128 B	120	12 288	256 × 8	1 M	40 T

2.3 关键设计选择

① MoE：稀疏的"专家委员会"

每个 Token 经过 Router (路由器) 决定送到 8 / 160 个专家中的若干个，整体激活参数仅 6.4 % 但模型容量是其 16×。

等价的 FLOPs：

$$ \text{FLOPs}_{\text{forward}} \approx 2 \cdot N_{\text{act}} \cdot D $$

但显存占用是 总参数 N，且专家间通信变成 All-to-All（§6 详细讨论）。

② 长上下文：512 K → 1 M

采用 RoPE / NoPE 混合 + Ring Attention / DeepSpeed Ulysses [R24] 切分序列维度。核心代价：KV-cache 与 attention FLOPs 都随 L² 增长。

③ 训练目标分阶段

预训练 Pretrain：20 T tokens 通用语料，下一 token 预测。占总算力 80 %。
中训练 Mid-train：1–3 T tokens 高质量数学/代码/推理强化语料。占 10 %。
后训练 Post-train：SFT + DPO + RLVR (Reinforcement Learning with Verifiable Rewards) 占 8 %。
对齐 Alignment：Constitutional AI [R31] 风格的安全与价值观对齐。占 2 %。

关键警示本课所有数字以 Baseline (1 T 总 / 64 B 激活 / 20 T tokens) 为基础。若教学过程中需要换档，只需在 models/constants.py 修改 SCENARIOS 后 python -m models.run_all 即可全站重算。

03 训练算力 · SCALING LAW

训练 GLM-5.1 到底要多少算力？

Hoffmann 等人 2022 [R1] 提出的 Chinchilla 定律给了我们一把"工程标尺"。本节用 1 个公式 + 1 个互动计算器，把"1 T 模型 = 多少 GPU·小时"算清楚。

3.1 Scaling Law 的两个核心量

令模型激活参数为 $N_{\text{act}}$，训练数据 token 数为 $D$，每参数每 token 的浮点运算 ≈ 6（前向 2 + 反向 4）：

$$ C_{\text{train}} \;\approx\; 6 \cdot N_{\text{act}} \cdot D \quad(\text{Hoffmann 2022, Eq. 1})$$

Chinchilla 给出"compute-optimal"配比 $D \approx 20 N$；但对 MoE 模型业界经验取 $D \approx 20 N_{\text{total}}$（即每个总参数仍配 20 个 token，避免 router 退化）。

工程现实中还要叠加额外开销：

选择性激活重计算 (selective activation recomputation, [R13])：+33 %
MoE 路由 + 负载均衡损失：+5–10 %
通信尾延 / DataLoader stall：+10–15 %

合并系数约 1.33×，即实际预算用 $C_{\text{eff}} = 8 \cdot N_{\text{act}} \cdot D$。

3.2 代入 Baseline

$$ C_{\text{eff}} \;=\; 8 \times 6.4\!\times\!10^{10} \times 2.0\!\times\!10^{13} \;=\; 1.024\!\times\!10^{25} \text{ FLOPs} $$

—

总 FLOPs (含工程)

—

PetaFLOP-day

~10²⁵

已接近 EO 14110 报备阈值 10²⁶

3.3 互动：自己拨一拨

激活参数 N_act (B)

训练 token D (T)

GPU 型号

MFU (有效利用率)

目标训练天数

—

总 FLOPs

—

所需 GPU 数

—

集群可持续算力

—

IT 总功率

—

能耗 (PUE 1.15)

—

电费 (¥0.6 / kWh)

3.4 集群规模 vs 训练时长曲线

课堂提问若 BISTU 申请到 1 024 张 B200 经费，你估计 GLM-5.1 baseline 大概要训练几天？（拖动滑块对比答案）

04 NVIDIA GPU · CHIPSET

为什么是 NVIDIA？应该选哪一代？

Hopper (H100/H200) 与 Blackwell (B200/GB200) 是 2026 年训练大模型的两个主选。本节给出"算力 / 显存 / 显存带宽 / NVLink / 单价 / 功耗"的六维对比，并给出我们的选型结论。

4.1 四款主流卡硬指标

H100 SXM5

Hopper · 2023

BF16989 TFLOPS

FP81 979 TFLOPS

HBM80 GB HBM3

HBM 带宽3.35 TB/s

NVLink900 GB/s

TDP700 W

单价~25 万 ¥

H200 SXM5

Hopper · 2024

BF16989 TFLOPS

FP81 979 TFLOPS

HBM141 GB HBM3e

HBM 带宽4.80 TB/s

NVLink900 GB/s

TDP700 W

单价~32 万 ¥

B200 SXM ★

Blackwell · 2025

BF162 250 TFLOPS

FP84 500 TFLOPS

FP49 000 TFLOPS

HBM192 GB HBM3e

HBM 带宽8.00 TB/s

NVLink-51 800 GB/s

TDP1 000 W

单价~45 万 ¥

GB200 NVL72

Blackwell + Grace · 2025

单 GPU BF162 500 TFLOPS

整机柜72 GPU + 36 Grace

域内 NVLink1.8 TB/s × 72

机柜算力180 PFLOPS BF16

机柜功率~120 kW

整柜单价~2 800 万 ¥

4.2 选型结论矩阵

场景	推荐	理由
已有 H100 卡 + 中等预算	H100 + IB NDR	性价比最稳，软件栈最成熟
显存紧、长上下文需求 (≥128K)	H200 / B200	HBM 容量翻倍，可少切 PP 减通信
2025 起新建训练集群、追求最快 time-to-token	B200 + IB XDR	训练速度 2.3× H100，单 PFLOP 价格更低
追求极致性能、能买到货、有 132 kW/柜液冷条件	GB200 NVL72	72 GPU 全在一个 NVLink 域，TP×PP×EP 几乎"零通信"
纯推理服务（GLM-5.1 上线）	H200 / B200 (FP8/FP4)	HBM 带宽决定 decode 吞吐

本课选型主集群采用 2 048 张 B200（256 节点 HGX）+ InfiniBand XDR 800 G；若供应允许，升级 32 个 GB200 NVL72 机柜（2 304 张 GPU）形成"超节点"训练域，可把 §6 的 3D 并行 TP/PP/EP 全部塞进 NVLink 域内，集群外网仅承担 DP All-Reduce。

05 集群架构 · TOPOLOGY

把 2 000+ 张 GPU 怎么"接起来"？

单 GPU 算力再高也只是孤岛。现代大模型训练 95 % 的工程难度在系统架构与通信网络上。本节先给出整体架构总览，再自底向上：节点 → 机柜 → NVLink 域 → InfiniBand Fat-tree。

5.0 算力中心整体架构图

下图把"应用 → 框架 → 算力 → 网络 → 存储 → 设施"6 层堆栈与"北京主集群 + 乌兰察布备份/推理"双站部署一次画清。图中每个数字都与第 ③-⑩ 章可复算输出一致。

怎么读这张图自上而下 6 层是"问题域 → 实现栈"的下钻顺序：业务想做什么 (L1)，用什么框架 (L2)，跑在什么算力 (L3)，怎么连起来 (L4)，数据放哪 (L5)，机房怎么供电散热 (L6)。左右两站则体现"东数西算"政策下的"近端训练 + 远端推理 + 灾备"现代部署模式。

5.1 单节点 (HGX B200) 拆解

组件	规格	数量	说明
GPU	NVIDIA B200 SXM	8	NVSwitch 全互联，1.8 TB/s NVLink-5
NIC	ConnectX-8 InfiniBand XDR 800 G	8	每 GPU 1 张，PCIe 5.0 x16
CPU	Intel Xeon Platinum 8568Y+	2	2 × 64 core, 共 128 核
系统内存	DDR5-5600	2 TB	32 × 64 GB DIMM
本地 NVMe	U.2 PCIe 5.0 SSD	30 TB	scratch + dataset shard cache
带外管理	BMC + Redfish	1	纳入 Slurm/K8s
整机功率	—	~14.3 kW	液冷板覆盖 GPU + CPU
整机单价	—	~410 万 ¥	含 BOM + OEM 服务

5.2 节点内部 NVLink 拓扑（NVSwitch）

5.3 机柜布局：从 8 GPU/节点到 64 GPU/柜（液冷）

HGX B200 节点 8U，单柜 4 个节点 (32 GPU) 风冷上限。改用 DLC 液冷板可塞 8 节点 (64 GPU)，单柜功率约 80 kW，需要液冷分配单元 (CDU)。

对应 2 048 GPU 集群 = 32 个液冷机柜 + 4 个网络柜 + 4 个存储柜 ≈ 40 柜。规划面积约 600 m²（含冷热通道、布线、维护通道）。

5.4 InfiniBand Fat-tree 三级拓扑

非阻塞 (1:1) Fat-tree 是大规模训练事实标准。2 048 GPU × 1 NIC/GPU = 2 048 上行端口，按 NDR 64-port / XDR 144-port 交换机：

Leaf 层：每 leaf 接 32 GPU + 32 上行 = 64 端口。共 64 × NDR Leaf。
Spine 层：64 × 32 = 2 048 上行端口，每 spine 64 端口 → 32 × Spine。
Core 层：再聚合 32 × 32 / 64 = 16 × Core。
合计 112 台 NDR 交换机，约 1.7 亿 ¥（含 NIC + 光缆 + 收发器）。XDR 800 G 减半但单台贵一倍。

5.5 Spectrum-X：以太网替代方案

NVIDIA 2024 推出的 RoCEv2 以太网产品线，主打"InfiniBand 95 % 性能、以太网生态"。同等带宽 CAPEX 低 15–20 %，运维更友好但端到端时延略高。课程示例 §10 给出 IB-XDR / Spectrum-X 800G 两条 TCO 路径。

工程结论 "NVLink 域 ≤ 72 GPU"是 Blackwell 时代的新分水岭。把 TP+PP+EP 全压在 NVL72 域内，跨域只剩 DP All-Reduce，可让有效 MFU 从 36 % (H100 8 GPU 域) 提升到 ~45 % (GB200 72 GPU 域)。这是 GB200 NVL72 真正的"杀手锏"。

06 并行策略 · PARALLELISM

把 1 万亿参数的模型，切给 2 048 张卡

现代大模型训练是 5 ~ 6 维并行的"组合俄罗斯方块"。本节讲清 DP / TP / PP / EP / SP / CP 各自切什么、何时用、显存怎么算。

6.1 六种并行维度对照

维度	切什么	解决	通信	典型大小
DP (Data Parallel)	不同数据样本	提高吞吐	梯度 AllReduce	16 ~ 256+
TP (Tensor Parallel)	每层矩阵切列	显存 / 算力	每层 AllReduce	8 (NVLink 域内)
PP (Pipeline Parallel)	按层数切阶段	显存	阶段间 P2P	4 ~ 16
EP (Expert Parallel)	不同专家	MoE 显存	All-to-All	8 ~ 32
SP (Sequence Parallel)	LayerNorm / Dropout 序列维	激活显存	融入 TP	= TP
CP (Context Parallel)	注意力序列维	长上下文	Ring P2P	1 / 2 / 4 / 8

6.2 ZeRO：把优化器状态再切一刀

原始混合精度 Adam 训练每参数需 18 字节 (BF16 weight + BF16 grad + FP32 master + Adam m + Adam v + buffer)。ZeRO 三阶段递进切分：

阶段	切谁	每参数显存 (DP=16)
ZeRO-0 (DDP)	不切	18 B
ZeRO-1 (本课用)	Optimizer state ÷ DP	2 + 2 + 12/16 = 4.75 B
ZeRO-2	+ gradient ÷ DP	2 + 2/16 + 12/16 = 2.875 B
ZeRO-3	+ weight ÷ DP	18/16 ≈ 1.125 B

6.3 推荐配置（2 048 × B200，Baseline）

我们选择 TP=8, PP=8, EP=8, DP=32, CP=1（总计 8×8×8×32 = 16 384 进程位 ÷ 8 [TP×PP 重叠] = 2 048 GPU）。在 NVLink 8 GPU 域内承担 TP，跨节点用 PP + EP，跨子集群用 DP。

6.4 显存"账本"

解读 Baseline B200 配置下，每 GPU 显存仅占 17 ~ 19 GB（共 192 GB），剩余 90 % 留给激活与重计算缓冲，这是 1 T MoE 模型能跑得下的关键 — Hopper 80 GB 时代必须启 ZeRO-3，B200 时代 ZeRO-1 就够。

6.5 框架选型

NVIDIA NeMo Megatron-Core：官方推荐，对 Blackwell 优化最深，FP8 训练成熟。
Megatron-LM [R12]：开源经典，自定义灵活，需要二次开发对接 MoE。
DeepSpeed [R11][R27]：ZeRO 与 MoE 路由实现完整，社区活跃，长上下文 Ulysses [R24] 强。
Megatron-DeepSpeed：把两者优点合并，是 GLM-4.5 公开使用的栈。

本课选型 Megatron-Core (Blackwell 分支) + Transformer Engine FP8 + FlashAttention-3 [R25] 作为训练栈；长上下文阶段切到 DeepSpeed Ulysses CP=4。

07 存储 · DATA PIPELINE

数据从哪来、Checkpoint 怎么存？

训练过程中，存储不能成为短板。本节给出三层存储拓扑、Checkpoint 写入预算、数据预处理流水。

7.1 数据规模账

项	大小	说明
已分词 (tokenized) 数据集	~80 TB	20 T tokens × 4 字节
原始抓取语料 raw corpus	~2 PB	含多版本 Common Crawl + 中文垂域去重前
单次完整 Checkpoint (1 T 模型)	~16 TB	16 字节/参数 × 1 T (含 FP32 master + Adam 状态)
Checkpoint 保留 20 份	~320 TB	训练 90 天每 4h 保留近期 20 个

7.2 三层存储推荐

层	方案	容量	带宽	用途
Tier-0 热	WekaFS 全 NVMe	5 PB	2 000 GB/s 读	当前 batch shuffle + 实时 checkpoint
Tier-1 温	Lustre + DDN ES400NVX2	~50 PB	1 200 GB/s 读	多版本数据集 + 全部 ckpt
Tier-2 冷	Ceph QLC 对象存储	~100 PB	200 GB/s 读	原始抓取 + 历史模型

7.3 Checkpoint 写入预算

$$ T_{\text{ckpt}} = \frac{16\text{ TB}}{1.5\text{ TB/s}} \approx 11 \text{ s} $$

WekaFS 写吞吐 1.5 TB/s 时单次 ckpt ≈ 11 秒；若每 4 h 一次，则训练 stall 占比 = 11 / 14 400 ≈ 0.08 %，可忽略。关键是要用 NVIDIA Magnum IO + GPUDirect Storage (GDS) [R18] 让 GPU HBM 直接写存储，绕开 CPU 内存拷贝。

7.4 数据预处理流水

Common Crawl + 垂域抓取
        │
        ▼
[1] 去重 (MinHash + LSH, 1500 GPU·h)
        │
        ▼
[2] 质量过滤 (规则 + small classifier, ~500 GPU·h)
        │
        ▼
[3] 安全过滤 (NSFW / 隐私 / 版权, GPT-4 蒸馏小模型评分)
        │
        ▼
[4] 多语言混合配比 (中文 30 % / 英文 50 % / 代码 15 % / 数学 5 %)
        │
        ▼
[5] 分词 (BPE/SentencePiece, 词表 200K) → uint32 token IDs
        │
        ▼
Tier-1 Lustre  ←── 80 TB binary shards (每 shard 4 GB, 共 ~20 000 个)

真实经验数据准备的工时往往与训练本身相当。GLM-4.5 公开报告训练用了 ~100 人·年的数据团队工作， BISTU 校园场景建议从开源数据集（FineWeb-Edu、SlimPajama、RedPajama-V2、悟道、Skywork、CCI3-HQ）起步。

08 电力与制冷 · POWER

2 000 张 B200 的"用电账单"长什么样？

硬件再贵也是一次性，电力是无限期的"温水煮青蛙"。本节用 PUE 模型把账算到 kWh、t CO₂ 一级。

8.1 IT 负载 → 总功率

$$ E_{\text{annual}} = P_{\text{IT}} \cdot \text{PUE} \cdot 8760 $$

—

B200 集群 IT 功率

—

含 PUE 1.15 总功率

—

年耗电

—

年电费 (¥0.6/kWh)

—

年 CO₂ 排放 (华北电网)

8.2 PUE 滑量分析

8.3 三种制冷方案对比

方案	PUE	适用单柜功率	WUE	初始投资	评价
风冷 + 冷通道封闭	1.40	≤ 35 kW	~0	低	过时；H100 还能用，B200/GB200 上不了
板式液冷 DLC	1.15	80–100 kW	~0.3 L/kWh	中	主流方案，B200/GB200 最经济
单相浸没式	1.08	200 kW+	~0	高	极致 PUE；维护门槛高，占地大

8.4 选址建议

北京 / 廊坊 (主集群)：电费稍高 (0.6–0.8 ¥/kWh)，但贴近研发团队，运维便利，PUE 1.15 可达。
乌兰察布 / 中卫 (备份 + 推理 / 实验)：电费 0.30–0.40 ¥/kWh，气候冷适合自然冷源 PUE 1.10，缺点是 8–12 ms 时延。
贵安 (灾备)：水电资源丰富，碳因子最低 (~0.18 kg/kWh)，适合"绿色训练"宣传。

8.5 配电与冗余

双路市电 + 柴发 N+1 + 锂电 UPS（10 min 切换缓冲）。
10 kV 中压进线 → 干式变 → 0.4 kV 低压列头 → 机柜母线槽 (Busway)。
液冷 CDU 双路冗余 (N+1)；二次水回路 35 / 45 ℃ (ASHRAE W3 [R28])。

数字感一个 4 MW 的 B200 集群相当于一座 8 000 户居民区 的全年用电；年排放 21 000 吨 CO₂，约等于 4 600 辆乘用车 一年的排放。这是为什么必须谈"绿色算力"。

09 推理部署 · INFERENCE

训练完之后，怎么把模型"上线"？

推理是吃 HBM 带宽的活，模型上线决定了用户体验与单 token 成本。

9.1 推理两阶段：Prefill vs Decode

阶段	瓶颈	计算量	优化重点
Prefill (首 token 前)	算力 (TFLOPS)	2·N_act·L_in	FP8 / FP4、长 prompt 切片
Decode (生成中)	HBM 带宽	2·N_act per token	KV-cache 复用、speculative decoding

9.2 KV-Cache 容量

每请求 KV 字节 (使用 GQA, 每 8 个 head 共享 K/V):

$$ \text{KV}_{\text{req}} = 2 \cdot L \cdot \frac{n_h}{8} \cdot d_h \cdot S \cdot 2 \;\text{bytes (BF16)} $$

Baseline 88 层 × 80 head ÷ 8 × 128 head_dim × 8K seq × 2 (K + V) × 2 (BF16) ≈ 720 MB / req。

9.3 推理框架对比

框架	来源	特长	选型场景
vLLM [R15]	UC Berkeley → 社区	PagedAttention, 跨请求 KV 复用，开源生态最大	研发 / 二次开发
TensorRT-LLM	NVIDIA	FP8/FP4 内核手工调优，最快但闭源	生产推理 / 极致 QPS
NVIDIA Dynamo [R26]	NVIDIA 2025	Disaggregated Prefill/Decode, KV-cache 跨节点池化	大规模在线服务
Triton Inference Server	NVIDIA	多模型多框架统一 serving 层	企业网关 / 多模型混部
SGLang	UC Berkeley	RadixAttention，结构化输出最快	Agent / Tool calling 重场景

9.4 单副本性能

推理集群规划建议在乌兰察布部署 32 节点 × 8 B200 = 256 GPU 推理集群，TP=8 单副本，可承载 ~21 000 QPS @ 256 输出 token / 请求，相当于同时服务 10 万级日活。需要更高 QPS 时直接复制副本（DP for inference）。

9.5 关键优化技巧

Speculative Decoding：用小 draft 模型提前预测，主模型一次校验多个 token，可提速 1.8–2.5×。
FP8 / FP4 量化：B200 FP4 理论算力达 BF16 的 4×，配合 NVFP4 数据类型精度损失 < 1 %。
Prefill / Decode 解耦 (Dynamo)：把两阶段调度到不同 GPU 池，分别按算力 / 带宽优化。
Continuous Batching：vLLM 默认开启，把不同长度的请求滚动拼批，吞吐提升 2-3×。

10 TCO · 经济模型

这座算力中心，到底要花多少钱？

三年总拥有成本 (TCO) = CAPEX 一次性投入 + 3 × OPEX 年运营。本节给出可拖动的预算计算器。

10.1 主集群方案 (B200 × 2 048 + IB-XDR 800 G) 财务画像

—

CAPEX 总额

—

3 年 OPEX

—

三年 TCO

—

折算每 GPU·小时

10.2 五种硬件 × 网络组合横向对比

10.3 互动：自定义集群 → 实时 TCO

GPU 数量

2 048

服务器型号

—

CAPEX 估算

—

3 年 OPEX 估算

—

三年 TCO

—

每 GPU·小时

注：滑块按 baseline 线性外推，仅作量级估计；正式预算需运行 python -m models.tco 重新计算。

10.4 CAPEX 构成 (Baseline)

项	占比 (典型)	说明
GPU 服务器	~ 65 %	HGX B200 整机 BOM
网络 (IB / NIC / 线缆)	~ 10 %	Fat-tree 三层非阻塞
存储	~ 8 %	三层存储池
机房设施 (土建 / UPS / 配电 / CDU)	~ 12 %	液冷一次性
软件 (NVAIE / Slurm Pro / observability)	~ 5 %	3-5 千 ¥ / GPU 一次性

10.5 OPEX 年化构成

项	说明
电力	P × PUE × 8760 × 单价；占 OPEX 25–35 %
人员	每 1 000 GPU 配 ~ 8 名 SRE / 平台 / 数据 / 网络 / 安全 (60 万 ¥/年/人)
硬件维保	约 CAPEX × 4 %
软件订阅	NVAIE / 监控 / W&B 类工具，按 GPU 计
网络出口	100 Gbps 国内运营商专线 ≈ 400 万 ¥/年

商业洞察自建 B200 集群每 GPU·小时折合 ~45 ¥（含三年摊销）。云上租赁 H100 8 卡机型 2025 年市场价约 ¥30–60 / GPU·小时。结论：若年度训练 + 推理使用率能稳定在 65 % 以上，自建经济性优于纯租赁；否则推荐"自建 + 云爆发"混合策略。

11 项目落地 · ROADMAP & RISKS

12 个月，把一座算力中心从图纸变现实

这是给立项 PMO 与校级评审用的一页路线图，附主要风险与缓解策略。

11.1 12 个月里程碑

M1 ~ M2

立项与可行性

需求定义 / 容量测算 / 选址勘察 / 初步预算 (本课网站即可作为可研附件)

M2 ~ M4

采购与合同

GPU 供应商谈判 (NVIDIA / OEM)，IB / 存储招标，机房工程总包合同

M3 ~ M6

机房改造

液冷 CDU 部署、强电增容、配电与 UPS、消防、综合布线

M5 ~ M7

硬件到货 + 上电

服务器分批进场，按机柜单元做老化测试 (NVIDIA NCCL bandwidth bench, MLPerf)

M6 ~ M8

系统软件栈

Slurm / Kubernetes + Run:AI 调度、Magnum IO、Prometheus + Grafana、监控告警

M7 ~ M9

数据预备

Common Crawl 抓取 + 去重、垂域语料采集、分词与质量分类器训练

M8 ~ M9

训练演练

先以 100 B 小模型连续 7 天稳定性测试，验证 MTBF / 通信抖动 / Checkpoint 恢复

M9 ~ M12

GLM-5.1 正式预训练

~ 90 天连续训练；中训练、后训练并行准备

M11 ~ M12

推理上线 + 教学发布

乌兰察布推理集群打通；BISTU 内测 → 教育部示范课程开课

11.2 主要风险与缓解

风险	影响	缓解
美国出口管制升级 (B200/GB200 禁运)	采购停摆	渠道分散；关注国内华为 Ascend 910C / 寒武纪 / 摩尔线程国产卡作为 B 计划
电力配额受限	规模缩水	双站设计 (北京 + 西部)；分阶段采购；优先采用液冷降低单柜功率密度
训练发散 / loss spike	数十天算力浪费	更密 ckpt + 多副本快照；遇 spike 立即回滚；引入 LayerNorm gradient clipping
NVLink / IB 链路抖动	MFU 降 15-30 %	NCCL telemetry 监控；NVL72 单柜训练域内通信本质免疫；配置链路冗余
人员经验不足	故障恢复慢	外聘 NVIDIA 专业服务，与商汤 / 智谱 / 字节技术伙伴共建培训
数据合规 (隐私 / 版权)	下线风险	数据治理委员会；采用获得授权的中文垂域数据；公开可复算训练数据来源清单

11.3 总结：六句话送给同学

算力中心 = 模型 × 算法 × 系统 × 物理 × 经济，五维同时优化。
选 GPU 看 BF16/FP8/HBM 三件套，2025+ 默认 Blackwell；NVLink 域 ≤ 72 是新分水岭。
1 T MoE 模型 ≈ 10²⁵ FLOPs，2 048 × B200 跑 60–90 天可成。
3D + EP + ZeRO-1 是当前训练标配；TP 不出 NVLink、PP 跨节点、DP 跨子集群。
液冷不是奢侈品，是 B200/GB200 的入场券；PUE 1.15 是新基准。
学会算 TCO，比会写代码更难，也更值钱。

11.4 参考文献 (IEEE 风格)

下次课预告本课程的"姊妹篇" — 《1 T MoE 模型实战微调与 Agent 编排》 将在第 13 周开课，将基于本算力中心实操 GLM-4.5 全参微调与 vLLM 部署。

从 0 到 1：用 NVIDIA GPU 建造一座能训练 GLM-5.1 的国家级算力中心

📚 60 分钟讲解结构

为什么"算力中心"成为新的国之重器？

1.1 三个时代的对照

1.2 全球前十算力集群（2025 年公开估计）

1.3 中国"算网融合"政策与"东数西算"

1.4 给同学的认知地图

GLM-5.1 是什么样的模型？

2.1 GLM 家族演进

2.2 三档参数假设（本课主用 Baseline）

2.3 关键设计选择

① MoE：稀疏的"专家委员会"

② 长上下文：512 K → 1 M

③ 训练目标分阶段

训练 GLM-5.1 到底要多少算力？

3.1 Scaling Law 的两个核心量

3.2 代入 Baseline

3.3 互动：自己拨一拨

3.4 集群规模 vs 训练时长曲线

为什么是 NVIDIA？应该选哪一代？

4.1 四款主流卡硬指标

4.2 选型结论矩阵

把 2 000+ 张 GPU 怎么"接起来"？

5.0 算力中心整体架构图

5.1 单节点 (HGX B200) 拆解

5.2 节点内部 NVLink 拓扑（NVSwitch）

5.3 机柜布局：从 8 GPU/节点 到 64 GPU/柜（液冷）

5.4 InfiniBand Fat-tree 三级拓扑

5.5 Spectrum-X：以太网替代方案

把 1 万亿参数的模型，切给 2 048 张卡

6.1 六种并行维度对照

6.2 ZeRO：把优化器状态再切一刀

6.3 推荐配置（2 048 × B200，Baseline）

6.4 显存"账本"

6.5 框架选型

数据从哪来、Checkpoint 怎么存？

7.1 数据规模账

7.2 三层存储推荐

7.3 Checkpoint 写入预算

7.4 数据预处理流水

2 000 张 B200 的"用电账单"长什么样？

8.1 IT 负载 → 总功率

8.2 PUE 滑量分析

8.3 三种制冷方案对比

8.4 选址建议

8.5 配电与冗余

训练完之后，怎么把模型"上线"？

9.1 推理两阶段：Prefill vs Decode

9.2 KV-Cache 容量

9.3 推理框架对比

9.4 单副本性能

9.5 关键优化技巧

这座算力中心，到底要花多少钱？

10.1 主集群方案 (B200 × 2 048 + IB-XDR 800 G) 财务画像

10.2 五种硬件 × 网络组合横向对比

10.3 互动：自定义集群 → 实时 TCO

10.4 CAPEX 构成 (Baseline)

10.5 OPEX 年化构成

12 个月，把一座算力中心从图纸变现实

11.1 12 个月里程碑

11.2 主要风险与缓解

11.3 总结：六句话送给同学

11.4 参考文献 (IEEE 风格)

从 0 到 1：
用 NVIDIA GPU 建造一座
能训练 GLM-5.1 的国家级算力中心

5.3 机柜布局：从 8 GPU/节点到 64 GPU/柜（液冷）