万卡级AI算力底座:双平面 / 多平面网络架构全景拆解

行业新闻
当前位置: 首页 > 行业新闻
万卡级AI算力底座:双平面 / 多平面网络架构全景拆解

发布时间:2026-01-06 14:50:09  点击量:

2025 年,GPT-4 级别模型的参数已突破 10 万亿,单次训练需动用 1.2 万颗 GPU 连续跑 90 天。此时,网络不再是“配角”,而是与算力、存储并列的“第一性资源”——AllReduce 每拖 1 μs,整体 GPU 利用率就下降 0.7%;一次 3 秒的链路抖动,可直接浪费 1200 万元电费。传统三层 CLOS 已触达扩展极限,双平面/多平面(Dual-Plane / Multi-Plane)网络应运而生,成为智算中心的新范式。

万卡级AI算力底座:双平面 / 多平面网络架构全景拆解

技术拆解:双平面如何“三杀”传统痛点

延迟——路径确定


传统 ECMP 五元组哈希在大象流面前极易碰撞,导致部分链路空闲、部分链路溢出。双平面把 ToR 一分为二,同一 GPU 服务器的两个端口固定走各自平面,宏观上实现“流量守恒”,微观上无需逐包哈希,端到端微秒级抖动 <1 μs。

丢包——队列减半


实测 512 颗 GPU 跑 4 个 AllReduce,双平面使 ToR 下行队列长度从 3.2 MB 降到 260 kB,缓冲区溢出概率下降两个数量级。

故障域——1+1=1.5


任意一个 ToR 或上联链路失效,主机只需本地刷新 ECMP 组,无需全局控制器介入,收敛时间从 600 ms 缩短到 30 ms,训练任务只损失 5% 步长,而传统架构损失 30% 以上。

多平面再进化:把“一张网”拆成“四张网”

华为 CloudMatrix384 提出“三平面”模型,为不同流量量身定制网络服务:

UB 平面(Scale-Up)


全互联 384 颗 NPU,单端口 196 GB/s,专供 Tensor/Expert Parallel 细粒度通信,延迟 <2 μs。

RDMA 平面(Scale-Out)


200 G RoCEv2,负责分布式训练、KV-Cache 横向搬运;与 UB 平面物理隔离,防止长流冲击短流。

VPC 平面(带外管理)


10/25 G,跑控制、监控、存储,发生故障时不影响计算面。

在北京数字经济算力中心,四张物理独立网络(计算、存储、业务、管理)分别采用 400 G、200 G、100 G、10 G 多平面部署,实现“零抢占、零抖动、零接触”运维,全年网络故障导致的训练中断 <2 次。

运维与治理:让“硬”拓扑长出“软”智能

端网协同 Crux 调度器


阿里云把“通信-计算”建模成 one-hot 向量,实时感知 GPU 计算密度,优先调度高密任务,GPU 利用率再提 8.3-14.8%。

亚毫秒级故障自愈


交换机芯片本地监测 BER>1E-9 即触发 ARN(Adaptive Routing Notification),通知网卡切换平面,端到端自愈 <1 ms。

光模块数字孪生


基于 CMIS 标准实时采集温度、OSNR、BER,AI 预测 7 天内劣化概率,提前更换,现场故障率下降 70%。

FinOps 多租户


在多平面基础上做 VPC 切片,按“带宽+时延”组合计费,训练租户与推理租户错峰,全网利用率提升 22%。

未来展望:多平面的“下一站”

光电混合多层平面


硅光 OCS 现场可重构,依据模型大小动态改变拓扑,白天 Fat-Tree、晚上 Torus,一张物理网“日切”两次。

智能平面 0


利用 inline AI 芯片在交换机上做实时推理,平面 0 专跑“网络自管理”流量,实现“网络自己训练自己”。

800 G/1.6 T 超双平面


2026 年 51.2 T 芯片将演进到 102.4 T,单端口 800 G 物理层原生双 400 G,双平面天然向“超双平面”升级,GPU 带宽再翻倍。

绿色多平面


根据流量预测动态关闭平面或降频,夜间低负载关闭 30% 交换机,全年省电 1200 万度,相当于减少 1 万吨 CO₂。

结语:把“网络”做成“第一算力”

双平面与多平面网络不是简单的“多买一套交换机”,而是让“拓扑感知业务、让平面匹配流量”,把原本浪费在哈希极化、故障收敛、队列缓冲上的 GPU 时间重新“抢”回来。当大模型参数以每 10 个月 4 倍的速度膨胀时,谁先完成从“单平面”到“多平面”的跃迁,谁就握住了下一代智算中心的“时间钥匙”