🖥️

AI训练服务器

大规模AI训练服务器，搭载多GPU/NPU加速卡，支持千亿参数大模型训练，PCIe 5.0互联。

🏭 工业控制 🔧 200~500 颗芯片 🇨🇳 国产化率 15%

功能模块

关键芯片

芯片厂商

200~500

芯片总量

SYSTEM ARCHITECTURE · 系统架构

算力层

🧠 GPU加速卡×8

🔗 NVSwitch互联

💾 HBM3显存

▼ PCIe 5.0 / CXL

主机层

💻 双路Xeon CPU

💾 DDR5内存(2TB)

💾 NVMe SSD阵列

▼ PCIe 5.0

网络层

📡 400G InfiniBand×2

📡 100G以太网管理

🔐 BMC管理芯片

电源层

⚡ 3000W PSU×4

⚡ 48V→12V DC-DC

⚡ 多相VR(GPU)

散热层

❄️ 冷板液冷系统

🌡️ 温度传感矩阵

🔧 CDU冷却分配

设计难度评估

硬件设计

PCIe 5.0信号完整性+液冷+10kW+散热

软件开发

CUDA/PyTorch生态+NCCL集群通信

PCB Layout

56Gbps高速信号+多层HDI+阻抗控制

散热设计

10kW+整机功耗,液冷管路设计

供应链

GPU产能受限,交期6-12月

认证

服务器安全+EMC+效率认证

🇨🇳 国产化替代分析

GPU(NVIDIA)和CPU(Intel/AMD)高度依赖进口。国产替代：华为昇腾910B(部分AI训练)、海光DCU(兼容ROCm)、天数智芯、摩尔线程(推理)。InfiniBand可选中科驭数DPU。DDR5/HBM3：长鑫存储/长江存储逐步突破。

涉及芯片厂商： 英伟达(NVIDIA)、英特尔(Intel)、NVIDIA Mellanox、MPS(芯源)、ASPEED(信骅)

🔧 功能模块与关键芯片

🧠 GPU加速卡

AI训练核心算力单元，多卡并行。

芯片型号	制造商	功能简介	替代方案
NVIDIA H100 SXM ¥200000+	英伟达(NVIDIA)	80GB HBM3,3958 TFLOPS FP8,旗舰训练GPU Transformer Engine FP8训练 NVLink互联 MIG多实例	A100(上一代) 华为昇腾910B AMD MI300X

💻 CPU主板

服务器主板和CPU平台。

芯片型号	制造商	功能简介	替代方案
Intel Xeon w9-3495X ¥40000+	英特尔(Intel)	56核112线程,Sapphire Rapids-WS DDR5八通道 PCIe 5.0 AMX矩阵加速 CXL 1.1	Intel Xeon w7 AMD TR 7995WX AMD EPYC 9654(96核)

🔗 高速互联

GPU间和节点间高速网络。

芯片型号	制造商	功能简介	替代方案
NVIDIA NVSwitch ¥非公开	英伟达(NVIDIA)	NVLink交换芯片,900GB/s全互联全互联拓扑低延迟大带宽 8卡互联	华为HCCS Intel Xe Link AMD Infinity Fabric
ConnectX-7 ¥5000+	NVIDIA Mellanox	400Gb InfiniBand/Ethernet智能网卡 400G带宽 RDMA零拷贝 GPUDirect 硬件卸载	Intel E810 华为Hi1822 Broadcom P2100G

⚡ 供电系统

大功率服务器电源和配电。

芯片型号	制造商	功能简介	替代方案
MP2965 ¥5-10	MPS(芯源)	数字多相VR控制器,GPU/CPU供电数字多相 PMBus遥测快速瞬态电流均衡	TPS53688(TI) RAA229132(Renesas) IR38363(Infineon)

❄️ 散热系统

液冷/风冷散热方案。

芯片型号	制造商	功能简介	替代方案
BMC管理芯片 ¥15-30	ASPEED(信骅)	AST2600服务器管理芯片,IPMI/BMC IPMI 2.0 远程KVM 传感器监控固件更新	OpenBMC 自研BMC NPCM8xx(新唐)