Project Stardust · GLM-5.1 算力中心
教育部一流课程示范项目 · v1.0

从 0 到 1:
用 NVIDIA GPU 建造一座
能训练 GLM-5.1 的国家级算力中心

本课程在 60 分钟内,带带北京信息科技大学同学,把"算力中心"这件事 从模型规格 → 到芯片选型 → 到集群拓扑 → 到机房液冷 → 到 TCO 经济账 完整拆开讲透。所有数字都由本仓库内的 Python 模型可复算输出。

训练总算力 (含工程开销)
PetaFLOP-day
B200 集群 GPU 数 (90 天完工)
集群可持续算力
机房总功耗 (含 PUE)
三年 TCO
主讲人:Cursor Agent (Opus 4.7) 受众:BISTU CS / AI / SE 大三 时长:60 min 开发模式:Kiro Spec Workflow 构建日期:2026-04-19

📚 60 分钟讲解结构

01 课程导论 · BACKGROUND

为什么"算力中心"成为新的国之重器?

在 ChatGPT 之后,模型能力与训练算力呈对数线性关系。算力规模决定了一个国家、一所大学、一个公司 能否"做出能力",而不是只能"接调用"。

1.1 三个时代的对照

过去十年的 AI 突破,本质是把"摩尔定律的红利 × 算法的进步 × 数据的丰度" 三个变量同时拉满后取得的。

时代代表模型训练算力典型集群能力跃迁
2017–2019BERT-Large / GPT-2~10²⁰ FLOPs16 × V100能"懂语言"
2020–2022GPT-3 / PaLM~3×10²³ FLOPs10 K × A100能"涌现"
2023–2024GPT-4 / Llama-3 / GLM-4~2×10²⁵ FLOPs25 K × H100能"推理"
2025–2026GLM-5.1 / GPT-5 / Llama-4~10²⁵–10²⁶ FLOPs100 K × B200/GB200能"自主行动"

数据来源:[R2] Kaplan, [R32] OpenAI GPT-4 Tech Report, [R33] Llama 3 Herd, [R3][R4] Zhipu, 行业普遍估计。

1.2 全球前十算力集群(2025 年公开估计)

组织项目 / 集群地点GPU 估算峰值 BF16 算力
xAIColossus 1Memphis, TN100 000 × H100~99 EFLOPS
Meta"Hyperion" SuperClusterLouisiana350 000 × H100 (在建至 2026)~346 EFLOPS
Microsoft / OpenAIStargate (Phase 1)Abilene, TX~100 000 × GB200~250 EFLOPS
GoogleTPU v5p Pod (~)Ohio / Iowa~50 000 × TPUv5p~230 EFLOPS
Anthropic / AWS"Project Rainier"Indiana数十万 × Trainium 2~100+ EFLOPS
字节跳动"Doubao Cluster"新加坡 / 马来数万 × H100/H200~30+ EFLOPS
阿里巴巴张北智算中心河北张北数万级 H800 / B200~25 EFLOPS
智谱 / 字节 / 华为联合训练资源北京 / 贵州 / 内蒙~50 EFLOPS 国内总和

数据来源:Semianalysis 2025 公开估计 [R22], 各公司财报与发布会。"EFLOPS" 取 dense BF16, MFU=1 理论值。

ZHIPU 视角 智谱 GLM-4.5 / 4.6 已开源 (Apache 2.0, 355 B-A32B MoE),训练成本据 Zhipu 公告控制在 5 000 万 ~ 1 亿元区间。 下一代 GLM-5.1 将进入 1 T 量级,需要 1 000 ~ 4 000 张 B200 同时跑约 90 天,对国内任一所大学/公司都是大考。

1.3 中国"算网融合"政策与"东数西算"

本课立场 我们将设计一座"中央 1 个核心训练集群(北京近郊液冷数据中心)+ 1 个西部备份/推理集群(乌兰察布)" 的双站方案, 既符合"东数西算"政策,也满足北京周边高校/企业的低延迟推理。

1.4 给同学的认知地图

你将在接下来 55 分钟里,沿着这条主线走完一遍:

模型规格 → 算力 (FLOPs) → GPU 数 → 集群拓扑 → 显存/并行 → 数据/存储
                                              ↓
                                         电力/制冷 → 机房 → CAPEX/OPEX → TCO
02 GLM-5.1 · MODEL ANATOMY

GLM-5.1 是什么样的模型?

GLM-5.1 截至本课程编写时(2026-04)尚未官方发布。我们基于 Zhipu AI 已公开的 GLM-4.5/4.6 架构与 全球同代竞品 (DeepSeek-V3 [R5]、Llama-4、Qwen3、Kimi K2),给出 三档工程化外推

2.1 GLM 家族演进

版本发布架构总参 / 激活训练 token开源
GLM-130B2022.08Dense130 B / 130 B~0.4 T
GLM-4 / GLM-4-Air2024.01Dense~70 B~10 T部分
GLM-4.52025.07MoE355 B / 32 B~15 T✔ Apache 2.0
GLM-4.62025.09MoE + Long Context355 B / 32 B~17 T
GLM-5.1 (推断)~2026MoE + Multi-modal~1 T / 64 B~20 T

来源:[R3][R4] Zhipu 官方仓库与博客。

2.2 三档参数假设(本课主用 Baseline)

档位总参 N激活 Nact层数hiddenexperts × top_k上下文训练 tokens
保守 Conservative600 B40 B728 192128 × 8256 K12 T
基准 Baseline ★1.0 T64 B8810 240160 × 8512 K20 T
前沿 Frontier2.0 T128 B12012 288256 × 81 M40 T

2.3 关键设计选择

① MoE:稀疏的"专家委员会"

每个 Token 经过 Router (路由器) 决定送到 8 / 160 个专家中的若干个,整体激活参数仅 6.4 % 但模型容量是其 16×。

等价的 FLOPs:

$$ \text{FLOPs}_{\text{forward}} \approx 2 \cdot N_{\text{act}} \cdot D $$

但显存占用是 总参数 N,且专家间通信变成 All-to-All(§6 详细讨论)。

输入 Token x Router 路由器 Expert #3 Expert #17 (空闲) Expert #45 … (158 个空闲) 加权求和 ∑ wᵢ · Eᵢ(x)

② 长上下文:512 K → 1 M

采用 RoPE / NoPE 混合 + Ring Attention / DeepSpeed Ulysses [R24] 切分序列维度。核心代价:KV-cache 与 attention FLOPs 都随 L² 增长。

③ 训练目标分阶段

  1. 预训练 Pretrain:20 T tokens 通用语料,下一 token 预测。占总算力 80 %。
  2. 中训练 Mid-train:1–3 T tokens 高质量数学/代码/推理强化语料。占 10 %。
  3. 后训练 Post-train:SFT + DPO + RLVR (Reinforcement Learning with Verifiable Rewards) 占 8 %。
  4. 对齐 Alignment:Constitutional AI [R31] 风格的安全与价值观对齐。占 2 %。
关键警示 本课所有数字以 Baseline (1 T 总 / 64 B 激活 / 20 T tokens) 为基础。 若教学过程中需要换档,只需在 models/constants.py 修改 SCENARIOS 后 python -m models.run_all 即可全站重算。
03 训练算力 · SCALING LAW

训练 GLM-5.1 到底要多少算力?

Hoffmann 等人 2022 [R1] 提出的 Chinchilla 定律给了我们一把"工程标尺"。 本节用 1 个公式 + 1 个互动计算器,把"1 T 模型 = 多少 GPU·小时"算清楚。

3.1 Scaling Law 的两个核心量

令模型激活参数为 $N_{\text{act}}$,训练数据 token 数为 $D$,每参数每 token 的浮点运算 ≈ 6(前向 2 + 反向 4):

$$ C_{\text{train}} \;\approx\; 6 \cdot N_{\text{act}} \cdot D \quad(\text{Hoffmann 2022, Eq. 1})$$

Chinchilla 给出"compute-optimal"配比 $D \approx 20 N$;但对 MoE 模型业界经验取 $D \approx 20 N_{\text{total}}$(即每个总参数仍配 20 个 token,避免 router 退化)。

工程现实中还要叠加额外开销:

合并系数约 1.33×,即实际预算用 $C_{\text{eff}} = 8 \cdot N_{\text{act}} \cdot D$

3.2 代入 Baseline

$$ C_{\text{eff}} \;=\; 8 \times 6.4\!\times\!10^{10} \times 2.0\!\times\!10^{13} \;=\; 1.024\!\times\!10^{25} \text{ FLOPs} $$

总 FLOPs (含工程)
PetaFLOP-day
~10²⁵
已接近 EO 14110 报备阈值 10²⁶

3.3 互动:自己拨一拨

总 FLOPs
所需 GPU 数
集群可持续算力
IT 总功率
能耗 (PUE 1.15)
电费 (¥0.6 / kWh)

3.4 集群规模 vs 训练时长曲线

课堂提问 若 BISTU 申请到 1 024 张 B200 经费,你估计 GLM-5.1 baseline 大概要训练几天?(拖动滑块对比答案)
04 NVIDIA GPU · CHIPSET

为什么是 NVIDIA?应该选哪一代?

Hopper (H100/H200) 与 Blackwell (B200/GB200) 是 2026 年训练大模型的两个主选。 本节给出"算力 / 显存 / 显存带宽 / NVLink / 单价 / 功耗"的六维对比,并给出我们的选型结论。

4.1 四款主流卡硬指标

H100 SXM5
Hopper · 2023
BF16989 TFLOPS
FP81 979 TFLOPS
HBM80 GB HBM3
HBM 带宽3.35 TB/s
NVLink900 GB/s
TDP700 W
单价~25 万 ¥
H200 SXM5
Hopper · 2024
BF16989 TFLOPS
FP81 979 TFLOPS
HBM141 GB HBM3e
HBM 带宽4.80 TB/s
NVLink900 GB/s
TDP700 W
单价~32 万 ¥
B200 SXM ★
Blackwell · 2025
BF162 250 TFLOPS
FP84 500 TFLOPS
FP49 000 TFLOPS
HBM192 GB HBM3e
HBM 带宽8.00 TB/s
NVLink-51 800 GB/s
TDP1 000 W
单价~45 万 ¥
GB200 NVL72
Blackwell + Grace · 2025
单 GPU BF162 500 TFLOPS
整机柜72 GPU + 36 Grace
域内 NVLink1.8 TB/s × 72
机柜算力180 PFLOPS BF16
机柜功率~120 kW
整柜单价~2 800 万 ¥

4.2 选型结论矩阵

场景推荐理由
已有 H100 卡 + 中等预算H100 + IB NDR性价比最稳,软件栈最成熟
显存紧、长上下文需求 (≥128K)H200 / B200HBM 容量翻倍,可少切 PP 减通信
2025 起新建训练集群、追求最快 time-to-tokenB200 + IB XDR训练速度 2.3× H100,单 PFLOP 价格更低
追求极致性能、能买到货、有 132 kW/柜液冷条件GB200 NVL7272 GPU 全在一个 NVLink 域,TP×PP×EP 几乎"零通信"
纯推理服务(GLM-5.1 上线)H200 / B200 (FP8/FP4)HBM 带宽决定 decode 吞吐
本课选型 主集群采用 2 048 张 B200(256 节点 HGX)+ InfiniBand XDR 800 G; 若供应允许,升级 32 个 GB200 NVL72 机柜(2 304 张 GPU)形成"超节点"训练域, 可把 §6 的 3D 并行 TP/PP/EP 全部塞进 NVLink 域内,集群外网仅承担 DP All-Reduce。
05 集群架构 · TOPOLOGY

把 2 000+ 张 GPU 怎么"接起来"?

单 GPU 算力再高也只是孤岛。现代大模型训练 95 % 的工程难度在系统架构与通信网络上。 本节先给出整体架构总览,再自底向上:节点 → 机柜 → NVLink 域 → InfiniBand Fat-tree。

5.0 算力中心整体架构图

下图把"应用 → 框架 → 算力 → 网络 → 存储 → 设施"6 层堆栈与"北京主集群 + 乌兰察布备份/推理"双站部署一次画清。 图中每个数字都与第 ③-⑩ 章可复算输出一致。

GLM-5.1 算力中心 · 端到端总体架构 (Beijing 主集群 + Wulanchabu 备份/推理) ★ 主集群 · 北京 / 廊坊 2 048 × B200 · 3.66 MW IT · PUE 1.15 90 天可完成 GLM-5.1 baseline (1 T / 20 T tokens) 预训练 1 200 km 8-12 ms 备份 / 推理 · 乌兰察布 256 × B200 · 0.46 MW · PUE 1.10 东数西算枢纽 · 自然冷源 · ≈ 21K QPS 在线 L1 应用 GLM-5.1 预训练 20 T tokens · 90 天连训 中训练 + 后训练 SFT · DPO · RLVR · 对齐 推理服务 B/C API · Agent · Tool 评测 / 安全对齐 MMLU · CEval · Red-team L2 框架 调度 训练栈 TRAIN Megatron-Core DeepSpeed FlashAttn-3 TE FP8/FP4 推理栈 SERVE vLLM TRT-LLM Dynamo Triton SGLang 调度 · I/O · 监控 · 通信 Slurm + K8s + Run:AI Magnum IO + GDS Prometheus + Grafana NCCL + UCX L3 算力 主算力池 · 256 × HGX B200 节点 2 048 × B200 GPU · NVSwitch 8-GPU 域 · 3.66 MW IT 峰值 4.6 EFLOPS BF16 · 9.2 EFLOPS FP8 · 18.4 EFLOPS FP4 ★ 升级位 · GB200 NVL72 32 机柜 = 2 304 GPU 超节点 72-GPU NVLink 域 内部 TP+PP+EP CPU 控制层 512 颗 Xeon Platinum 8568Y+ L4 网络 节点内 · NVLink-5 NVSwitch · 1.8 TB/s × 8 GPU 承载 TP + PP + EP 节点间 · InfiniBand XDR Fat-tree 800 G/口 · 64 Leaf + 32 Spine + 16 Core = 112 SW 非阻塞 1:1 · 承载跨节点 DP All-Reduce 管理 / 带外 25/100 GbE + BMC Redfish Spectrum-X 800G 备选 L5 存储 Tier-0 热 · WekaFS 全 NVMe 5 PB · 2 TB/s 读 · 1.5 TB/s 写 Checkpoint + 当前 batch Tier-1 温 · Lustre + DDN 50 PB · 1.2 TB/s 数据集 · 历史 ckpt Tier-2 冷 · Ceph QLC 100 PB · 200 GB/s 原始抓取 + 历史模型 L6 机房 设施 液冷制冷 板式 DLC · 35/45 ℃ 单柜 80–100 kW PUE 1.15 · ASHRAE W3 配电 10 kV 双路市电 → 干变 → 0.4 kV 母线槽 Busway 应急 / 冗余 UPS Li-ion 10 min 柴发 N+1 CDU 双路冗余 机房布局 32 液冷 + 4 网 + 4 存 ≈ 600 m² 机房 总功率 4.21 MW 所有数字 = Baseline (1 T 总参 / 64 B 激活 · B200 × 2 048 · PUE 1.15) · 由 models/run_all.py 计算 · 见 §3-§10 详细推导 色板 · NV-Green 算力 / 推理 | Zhipu-Blue 训练 / 网络 | Amber 设施 | Slate 通用模块
怎么读这张图 自上而下 6 层是"问题域 → 实现栈"的下钻顺序:业务想做什么 (L1), 用什么框架 (L2),跑在什么算力 (L3),怎么连起来 (L4),数据放哪 (L5), 机房怎么供电散热 (L6)。 左右两站则体现"东数西算"政策下的"近端训练 + 远端推理 + 灾备"现代部署模式。

5.1 单节点 (HGX B200) 拆解

组件规格数量说明
GPUNVIDIA B200 SXM8NVSwitch 全互联,1.8 TB/s NVLink-5
NICConnectX-8 InfiniBand XDR 800 G8每 GPU 1 张,PCIe 5.0 x16
CPUIntel Xeon Platinum 8568Y+22 × 64 core, 共 128 核
系统内存DDR5-56002 TB32 × 64 GB DIMM
本地 NVMeU.2 PCIe 5.0 SSD30 TBscratch + dataset shard cache
带外管理BMC + Redfish1纳入 Slurm/K8s
整机功率~14.3 kW液冷板覆盖 GPU + CPU
整机单价~410 万 ¥含 BOM + OEM 服务

5.2 节点内部 NVLink 拓扑(NVSwitch)

GPU 0 GPU 1 GPU 2 GPU 3 GPU 4 GPU 5 GPU 6 GPU 7 NVSwitch ×4 (Fully Connected) 每 GPU 1.8 TB/s 双向带宽 8 × ConnectX-8 IB XDR 800 G → Leaf Switch 总出口 6.4 Tbps

5.3 机柜布局:从 8 GPU/节点 到 64 GPU/柜(液冷)

HGX B200 节点 8U,单柜 4 个节点 (32 GPU) 风冷上限。改用 DLC 液冷板可塞 8 节点 (64 GPU),单柜功率约 80 kW,需要液冷分配单元 (CDU)。

对应 2 048 GPU 集群 = 32 个液冷机柜 + 4 个网络柜 + 4 个存储柜 ≈ 40 柜。规划面积约 600 m²(含冷热通道、布线、维护通道)。

5.4 InfiniBand Fat-tree 三级拓扑

非阻塞 (1:1) Fat-tree 是大规模训练事实标准。2 048 GPU × 1 NIC/GPU = 2 048 上行端口,按 NDR 64-port / XDR 144-port 交换机:

5.5 Spectrum-X:以太网替代方案

NVIDIA 2024 推出的 RoCEv2 以太网产品线,主打"InfiniBand 95 % 性能、以太网生态"。同等带宽 CAPEX 低 15–20 %,运维更友好但端到端时延略高。课程示例 §10 给出 IB-XDR / Spectrum-X 800G 两条 TCO 路径。

工程结论 "NVLink 域 ≤ 72 GPU"是 Blackwell 时代的新分水岭。把 TP+PP+EP 全压在 NVL72 域内, 跨域只剩 DP All-Reduce,可让有效 MFU 从 36 % (H100 8 GPU 域) 提升到 ~45 % (GB200 72 GPU 域)。 这是 GB200 NVL72 真正的"杀手锏"。
06 并行策略 · PARALLELISM

把 1 万亿参数的模型,切给 2 048 张卡

现代大模型训练是 5 ~ 6 维并行的"组合俄罗斯方块"。 本节讲清 DP / TP / PP / EP / SP / CP 各自切什么、何时用、显存怎么算。

6.1 六种并行维度对照

维度切什么解决通信典型大小
DP (Data Parallel)不同数据样本提高吞吐梯度 AllReduce16 ~ 256+
TP (Tensor Parallel)每层矩阵切列显存 / 算力每层 AllReduce8 (NVLink 域内)
PP (Pipeline Parallel)按层数切阶段显存阶段间 P2P4 ~ 16
EP (Expert Parallel)不同专家MoE 显存All-to-All8 ~ 32
SP (Sequence Parallel)LayerNorm / Dropout 序列维激活显存融入 TP= TP
CP (Context Parallel)注意力序列维长上下文Ring P2P1 / 2 / 4 / 8

6.2 ZeRO:把优化器状态再切一刀

原始混合精度 Adam 训练每参数需 18 字节 (BF16 weight + BF16 grad + FP32 master + Adam m + Adam v + buffer)。ZeRO 三阶段递进切分:

阶段切谁每参数显存 (DP=16)
ZeRO-0 (DDP)不切18 B
ZeRO-1 (本课用)Optimizer state ÷ DP2 + 2 + 12/16 = 4.75 B
ZeRO-2+ gradient ÷ DP2 + 2/16 + 12/16 = 2.875 B
ZeRO-3+ weight ÷ DP18/16 ≈ 1.125 B

6.3 推荐配置(2 048 × B200,Baseline)

我们选择 TP=8, PP=8, EP=8, DP=32, CP=1(总计 8×8×8×32 = 16 384 进程位 ÷ 8 [TP×PP 重叠] = 2 048 GPU)。 在 NVLink 8 GPU 域内承担 TP,跨节点用 PP + EP,跨子集群用 DP。

6.4 显存"账本"

解读 Baseline B200 配置下,每 GPU 显存仅占 17 ~ 19 GB(共 192 GB),剩余 90 % 留给激活与重计算缓冲, 这是 1 T MoE 模型能跑得下的关键 — Hopper 80 GB 时代必须启 ZeRO-3,B200 时代 ZeRO-1 就够。

6.5 框架选型

本课选型 Megatron-Core (Blackwell 分支) + Transformer Engine FP8 + FlashAttention-3 [R25] 作为训练栈; 长上下文阶段切到 DeepSpeed Ulysses CP=4
07 存储 · DATA PIPELINE

数据从哪来、Checkpoint 怎么存?

训练过程中,存储不能成为短板。本节给出三层存储拓扑、Checkpoint 写入预算、数据预处理流水。

7.1 数据规模账

大小说明
已分词 (tokenized) 数据集~80 TB20 T tokens × 4 字节
原始抓取语料 raw corpus~2 PB含多版本 Common Crawl + 中文垂域去重前
单次完整 Checkpoint (1 T 模型)~16 TB16 字节/参数 × 1 T (含 FP32 master + Adam 状态)
Checkpoint 保留 20 份~320 TB训练 90 天每 4h 保留近期 20 个

7.2 三层存储推荐

方案容量带宽用途
Tier-0 热WekaFS 全 NVMe5 PB2 000 GB/s 读当前 batch shuffle + 实时 checkpoint
Tier-1 温Lustre + DDN ES400NVX2~50 PB1 200 GB/s 读多版本数据集 + 全部 ckpt
Tier-2 冷Ceph QLC 对象存储~100 PB200 GB/s 读原始抓取 + 历史模型

7.3 Checkpoint 写入预算

$$ T_{\text{ckpt}} = \frac{16\text{ TB}}{1.5\text{ TB/s}} \approx 11 \text{ s} $$

WekaFS 写吞吐 1.5 TB/s 时单次 ckpt ≈ 11 秒;若每 4 h 一次,则训练 stall 占比 = 11 / 14 400 ≈ 0.08 %,可忽略。 关键是要用 NVIDIA Magnum IO + GPUDirect Storage (GDS) [R18] 让 GPU HBM 直接写存储,绕开 CPU 内存拷贝。

7.4 数据预处理流水

Common Crawl + 垂域抓取
        │
        ▼
[1] 去重 (MinHash + LSH, 1500 GPU·h)
        │
        ▼
[2] 质量过滤 (规则 + small classifier, ~500 GPU·h)
        │
        ▼
[3] 安全过滤 (NSFW / 隐私 / 版权, GPT-4 蒸馏小模型评分)
        │
        ▼
[4] 多语言混合配比 (中文 30 % / 英文 50 % / 代码 15 % / 数学 5 %)
        │
        ▼
[5] 分词 (BPE/SentencePiece, 词表 200K) → uint32 token IDs
        │
        ▼
Tier-1 Lustre  ←── 80 TB binary shards (每 shard 4 GB, 共 ~20 000 个)
真实经验 数据准备的工时往往与训练本身相当。GLM-4.5 公开报告训练用了 ~100 人·年的数据团队工作, BISTU 校园场景建议从开源数据集(FineWeb-Edu、SlimPajama、RedPajama-V2、悟道、Skywork、CCI3-HQ)起步。
08 电力与制冷 · POWER

2 000 张 B200 的"用电账单"长什么样?

硬件再贵也是一次性,电力是无限期的"温水煮青蛙"。本节用 PUE 模型把账算到 kWh、t CO₂ 一级。

8.1 IT 负载 → 总功率

$$ E_{\text{annual}} = P_{\text{IT}} \cdot \text{PUE} \cdot 8760 $$

B200 集群 IT 功率
含 PUE 1.15 总功率
年耗电
年电费 (¥0.6/kWh)
年 CO₂ 排放 (华北电网)

8.2 PUE 滑量分析

8.3 三种制冷方案对比

方案PUE适用单柜功率WUE初始投资评价
风冷 + 冷通道封闭1.40≤ 35 kW~0过时;H100 还能用,B200/GB200 上不了
板式液冷 DLC1.1580–100 kW~0.3 L/kWh主流方案,B200/GB200 最经济
单相浸没式1.08200 kW+~0极致 PUE;维护门槛高,占地大

8.4 选址建议

8.5 配电与冗余

数字感 一个 4 MW 的 B200 集群相当于一座 8 000 户居民区 的全年用电; 年排放 21 000 吨 CO₂,约等于 4 600 辆乘用车 一年的排放。 这是为什么必须谈"绿色算力"。
09 推理部署 · INFERENCE

训练完之后,怎么把模型"上线"?

推理是吃 HBM 带宽的活,模型上线决定了用户体验与单 token 成本。

9.1 推理两阶段:Prefill vs Decode

阶段瓶颈计算量优化重点
Prefill (首 token 前)算力 (TFLOPS)2·Nact·LinFP8 / FP4、长 prompt 切片
Decode (生成中)HBM 带宽2·Nact per tokenKV-cache 复用、speculative decoding

9.2 KV-Cache 容量

每请求 KV 字节 (使用 GQA, 每 8 个 head 共享 K/V):

$$ \text{KV}_{\text{req}} = 2 \cdot L \cdot \frac{n_h}{8} \cdot d_h \cdot S \cdot 2 \;\text{bytes (BF16)} $$

Baseline 88 层 × 80 head ÷ 8 × 128 head_dim × 8K seq × 2 (K + V) × 2 (BF16) ≈ 720 MB / req

9.3 推理框架对比

框架来源特长选型场景
vLLM [R15]UC Berkeley → 社区PagedAttention, 跨请求 KV 复用,开源生态最大研发 / 二次开发
TensorRT-LLMNVIDIAFP8/FP4 内核手工调优,最快但闭源生产推理 / 极致 QPS
NVIDIA Dynamo [R26]NVIDIA 2025Disaggregated Prefill/Decode, KV-cache 跨节点池化大规模在线服务
Triton Inference ServerNVIDIA多模型多框架统一 serving 层企业网关 / 多模型混部
SGLangUC BerkeleyRadixAttention,结构化输出最快Agent / Tool calling 重场景

9.4 单副本性能

推理集群规划 建议在乌兰察布部署 32 节点 × 8 B200 = 256 GPU 推理集群,TP=8 单副本, 可承载 ~21 000 QPS @ 256 输出 token / 请求,相当于同时服务 10 万级日活。 需要更高 QPS 时直接复制副本(DP for inference)。

9.5 关键优化技巧

10 TCO · 经济模型

这座算力中心,到底要花多少钱?

三年总拥有成本 (TCO) = CAPEX 一次性投入 + 3 × OPEX 年运营。本节给出可拖动的预算计算器。

10.1 主集群方案 (B200 × 2 048 + IB-XDR 800 G) 财务画像

CAPEX 总额
3 年 OPEX
三年 TCO
折算每 GPU·小时

10.2 五种硬件 × 网络组合横向对比

10.3 互动:自定义集群 → 实时 TCO

2 048
CAPEX 估算
3 年 OPEX 估算
三年 TCO
每 GPU·小时

注:滑块按 baseline 线性外推,仅作量级估计;正式预算需运行 python -m models.tco 重新计算。

10.4 CAPEX 构成 (Baseline)

占比 (典型)说明
GPU 服务器~ 65 %HGX B200 整机 BOM
网络 (IB / NIC / 线缆)~ 10 %Fat-tree 三层非阻塞
存储~ 8 %三层存储池
机房设施 (土建 / UPS / 配电 / CDU)~ 12 %液冷一次性
软件 (NVAIE / Slurm Pro / observability)~ 5 %3-5 千 ¥ / GPU 一次性

10.5 OPEX 年化构成

说明
电力P × PUE × 8760 × 单价;占 OPEX 25–35 %
人员每 1 000 GPU 配 ~ 8 名 SRE / 平台 / 数据 / 网络 / 安全 (60 万 ¥/年/人)
硬件维保约 CAPEX × 4 %
软件订阅NVAIE / 监控 / W&B 类工具,按 GPU 计
网络出口100 Gbps 国内运营商专线 ≈ 400 万 ¥/年
商业洞察 自建 B200 集群每 GPU·小时折合 ~45 ¥(含三年摊销)。 云上租赁 H100 8 卡机型 2025 年市场价约 ¥30–60 / GPU·小时结论:若年度训练 + 推理使用率能稳定在 65 % 以上,自建经济性优于纯租赁;否则推荐"自建 + 云爆发"混合策略。
11 项目落地 · ROADMAP & RISKS

12 个月,把一座算力中心从图纸变现实

这是给立项 PMO 与校级评审用的一页路线图,附主要风险与缓解策略。

11.1 12 个月里程碑

M1 ~ M2
立项与可行性
需求定义 / 容量测算 / 选址勘察 / 初步预算 (本课网站即可作为可研附件)
M2 ~ M4
采购与合同
GPU 供应商谈判 (NVIDIA / OEM),IB / 存储招标,机房工程总包合同
M3 ~ M6
机房改造
液冷 CDU 部署、强电增容、配电与 UPS、消防、综合布线
M5 ~ M7
硬件到货 + 上电
服务器分批进场,按机柜单元做老化测试 (NVIDIA NCCL bandwidth bench, MLPerf)
M6 ~ M8
系统软件栈
Slurm / Kubernetes + Run:AI 调度、Magnum IO、Prometheus + Grafana、监控告警
M7 ~ M9
数据预备
Common Crawl 抓取 + 去重、垂域语料采集、分词与质量分类器训练
M8 ~ M9
训练演练
先以 100 B 小模型连续 7 天稳定性测试,验证 MTBF / 通信抖动 / Checkpoint 恢复
M9 ~ M12
GLM-5.1 正式预训练
~ 90 天连续训练;中训练、后训练并行准备
M11 ~ M12
推理上线 + 教学发布
乌兰察布推理集群打通;BISTU 内测 → 教育部示范课程开课

11.2 主要风险与缓解

风险影响缓解
美国出口管制升级 (B200/GB200 禁运)采购停摆渠道分散;关注国内华为 Ascend 910C / 寒武纪 / 摩尔线程国产卡作为 B 计划
电力配额受限规模缩水双站设计 (北京 + 西部);分阶段采购;优先采用液冷降低单柜功率密度
训练发散 / loss spike数十天算力浪费更密 ckpt + 多副本快照;遇 spike 立即回滚;引入 LayerNorm gradient clipping
NVLink / IB 链路抖动MFU 降 15-30 %NCCL telemetry 监控;NVL72 单柜训练域内通信本质免疫;配置链路冗余
人员经验不足故障恢复慢外聘 NVIDIA 专业服务,与商汤 / 智谱 / 字节技术伙伴共建培训
数据合规 (隐私 / 版权)下线风险数据治理委员会;采用获得授权的中文垂域数据;公开可复算训练数据来源清单

11.3 总结:六句话送给同学

  1. 算力中心 = 模型 × 算法 × 系统 × 物理 × 经济,五维同时优化。
  2. 选 GPU 看 BF16/FP8/HBM 三件套,2025+ 默认 Blackwell;NVLink 域 ≤ 72 是新分水岭。
  3. 1 T MoE 模型 ≈ 10²⁵ FLOPs,2 048 × B200 跑 60–90 天可成。
  4. 3D + EP + ZeRO-1 是当前训练标配;TP 不出 NVLink、PP 跨节点、DP 跨子集群。
  5. 液冷不是奢侈品,是 B200/GB200 的入场券;PUE 1.15 是新基准。
  6. 学会算 TCO,比会写代码更难,也更值钱。

11.4 参考文献 (IEEE 风格)

    下次课预告 本课程的"姊妹篇" — 《1 T MoE 模型实战微调与 Agent 编排》 将在第 13 周开课, 将基于本算力中心实操 GLM-4.5 全参微调与 vLLM 部署。