下一代AI数据中心:先进控制与电源技术赋能算力供电革新

来源:EEPW 电源管理 35 次阅读
摘要:过去十年,数据中心的核心竞争力主要集中在计算能力。而进入生成式AI时代之后,决定服务器性能瓶颈的,开始从“算力芯片”转向“能源系统”。 当GPT-5级别大模型训练、AI Agent推理、视频生成、多模态计算以及科学计算同时爆发,现代AI数据中心正在经历一次前所未有的功耗跃迁:单机柜功率,正从过去的几十千瓦,快速迈向100kW、300kW,甚至1MW级别。而这一变化的背后,并不仅仅意味着“耗电量增加

过去十年,数据中心的核心竞争力主要集中在计算能力。而进入生成式AI时代之后,决定服务器性能瓶颈的,开始从“算力芯片”转向“能源系统”。

当GPT-5级别大模型训练、AI Agent推理、视频生成、多模态计算以及科学计算同时爆发,现代AI数据中心正在经历一次前所未有的功耗跃迁:单机柜功率,正从过去的几十千瓦,快速迈向100kW、300kW,甚至1MW级别。而这一变化的背后,并不仅仅意味着“耗电量增加”那么简单。它实际上正在迫使整个服务器供电体系、机柜架构、配电网络以及电源管理系统进行全面重构。

尤其是随着AI服务器中GPU、ASIC、DPU、HBM以及高速互连芯片数量不断增加,传统48V供电体系已经开始接近物理极限。在这种背景下,如何以更高效率、更低损耗、更高密度的方式,把电能安全、稳定地输送到AI加速器,成为数据中心产业面临的新核心挑战。

AI服务器正在成为“超级耗电机器”

传统企业服务器时代,CPU仍是主要计算核心。当时单颗处理器功耗通常在200W以内,一个标准服务器机柜功率大约只有10kW到30kW。但生成式AI彻底改变了这一局面。如今的大模型训练服务器,往往需要部署:

  • 8颗GPU; 

  • 16颗GPU; 

  • 甚至72颗GPU集群节点。 

而单颗高端AI GPU功耗已经突破1000W。未来Blackwell Ultra以及下一代AI加速器,功耗还将进一步提升。与此同时,AI服务器内部的HBM高带宽内存、高速SerDes、NVLink交换芯片、PCIe互连、液冷系统也都在持续增加能耗。

这就导致AI服务器已经从“计算设备”,变成了“高密度能源设备”。尤其是在训练大型AI模型时,GPU负载会持续动态变化,执行不同任务负载可能会导致服务器电流快速波动,而GPU集群规模越大,这种动态功率变化就越剧烈。

因此,现代AI数据中心的电力系统不仅需要“供得上电”,更需要具有快速动态响应、高精度电压调节、极低供电损耗、高稳定性和高可靠性,以及高瞬态响应能力,这已经远远超出了传统服务器电源设计思路。

传统48V供电体系开始走向极限

过去几年,48V供电架构曾被视为数据中心的重要升级方向。相比12V系统,48V能够显著降低电流,从而减少铜线损耗。但问题在于AI服务器功率增长速度远超预期。根据德州仪器的测算,如果使用48V为一个1MW AI机柜供电,为了控制线路损耗,可能需要接近450磅铜材。这会带来几个严重问题:

首先是铜缆重量和成本急剧上升,而兆瓦级AI机柜意味着极高电流,也就意味着电缆尺寸要更大,这不仅增加铜材成本,也会显著提高布线复杂度、机柜重量以及供电系统体积,大幅提升数据中心部署难度。

其次是,系统功率损耗迅速增加。在供电系统中功率损耗与电流平方成正比,即使电阻不变,电流增加后,损耗会呈平方级增长。因此,当AI机柜功率突破数百千瓦后,低压供电会迅速导致发热增加,不仅冷却压力剧增,更关键是能源转换效率大幅下降。

第三个方面是动态负载响应越来越困难。AI GPU的负载变化速度极快,当GPU从低利用率瞬间进入大规模矩阵计算时,电流需求可能在极短时间内急剧上升。传统电源架构很难在这种高动态环境下维持稳定供电,而一旦供电波动过大,就可能导致GPU降频引发系统稳定性下降,最终引发任务中断和数据丢失等严重问题。

因此,AI时代的数据中心供电系统,已经不再只是“供电模块”,而是整个算力系统的重要组成部分。

800V DC架构:下一代AI机柜的供电新模式

为了降低电流与损耗,最直接的方法就是提高电压。于是,英伟达引领数据中心设计迈向800V高压直流(HVDC)架构,其核心逻辑是“让高电压尽可能靠近功耗终端。”

相比传统48V系统,800V直流能够显著降低输电电流,从而减少铜材使用、降低线路损耗、提升供电效率、缩小布线空间并提升机柜功率密度。这对于未来兆瓦级AI机柜至关重要。

德州仪器与英伟达深度合作,携手打造800V直流配电生态系统,借助先进功率级、多相控制器与实时微控制器,可在保持高功率密度与高效率的前提下,可规模化地为兆瓦级及以上功率需求的机架及其内部设备提供稳定可靠的供电。

在TI与英伟达提出的架构中,数据中心供电方式发生了明显变化。传统模式通常是:交流电 → 多级转换 → 服务器低压供电。而新的800V DC体系则采用:480V交流输入 → 800V直流转换 → 机柜级直流分配 → 本地DC-DC降压。其中最关键的新设计,是“Sidecar”侧边供电模块。

Sidecar架构:把供电系统从机柜中“拆出去”

所谓Sidecar,本质上是一个独立的高功率供电模块。它被部署在AI机柜旁边,而不是放在服务器内部。

这一设计有几个重要意义:

一、释放机柜内部空间。传统服务器中,大量空间被电源模块占据,而AI时代最宝贵的资源是GPU的部署密度。通过将大量电源转换模块迁移到Sidecar,可以让机柜内部容纳更多GPU与交换芯片,这对于提升AI集群密度极其关键。

二、缩短GPU之间互连距离。AI训练越来越依赖GPU间高速互联,而AI机架内部可能汇集了包括NVLink、NVSwitch、PCIe Gen6和CPO光互连等多种传输方式,GPU距离越近,延迟越低。而Sidecar架构腾出的空间,可以进一步压缩GPU间距离,从而降低通信延迟。

三、更适合液冷与热管理。未来AI机柜最大的挑战之一是散热。高压供电系统与GPU发热源分离后,可以进一步优化液冷路径和热分布,并通过更自由的风道设计提升电源散热效果。 

image.png

图1 德州仪器的高压直流系统架构的基本构成。该架构采用侧挂电源舱(sidecar)设计,集中放置大部分电源组件;侧挂电源舱紧邻 IT 机架部署,机架内仅放置处理器与少量电源转换组件。这种布局可让每个 IT 机架集成更多处理器,最大限度降低处理器间通信延迟。

如图 1 所示,电网输入的 480 伏交流电进入侧挂电源舱,经三相高压整流器转换为 800 伏直流电。该电压为同样置于侧挂电源舱的电池备份单元与电容备份单元充电,再通过线缆将 800 伏直流电输送至 IT 机架内的 DC-DC 转换模块。在机架内部,DC-DC 转换器将电压降至处理器、通信设备及其他组件所需的 12–54 伏直流电。

德州仪器电源管理领域的专家团队预判了高压供电的发展趋势,以及满足客户需求所面临的挑战,并提出多项核心观点:

  • 最高效的供电方式,是让更高电压尽可能靠近用电端。

  • 电源转换器应提升开关频率,以减少余热损耗,并缩小磁性元件的体积。

  • 氮化镓器件的开关能耗极低,可在高电压下优化高开关频率的性能平衡。

  • 服务器电源系统需通过部署侧挂式电池备份单元与超级电容,应对负载的快速波动。

  • 服务器停机每分钟可能造成数千美元损失,因此必须通过合理配置电子熔断器(eFuse)等保护器件,并结合模拟监测与数字智能技术,实现预测性维护,保障系统可靠性。

针对这些趋势,德州仪器提供了从多相控制器到集成功率级的全系列产品,可加速数据中心方案设计落地。

针对机架高压供电需求,公司推出LMG3650R035——650 伏、35 毫欧氮化镓场效应管功率级,集成驱动与保护电路(见图 2)。该产品支持栅极驱动强度可调,可独立控制开通与关断压摆率,优化系统性能并降低电磁干扰。

image.png

图2 LMG365xR035 氮化镓场效应管功率级集成驱动与保护电路。

德州仪器还提供中压氮化镓器件,例如LMG3100R017——100 伏、1.7 毫欧、集成驱动的氮化镓场效应管,可优化机架内部的功率密度与热效率。

AI服务器供电革命:智能电力管理系统

未来AI服务器最大的特点之一,是负载变化极快。因此,仅靠传统固定供电已经不够。现代电源系统开始向“数字化智能供电”演进,AI服务器庞大且高价值的市场成为领先电源厂商的必争之地。

TI提出的数据中心方案中,一个关键方向就是实时数字电源管理。举例来说,GPU能够动态请求不同电压,不同GPU可以分配不同电压,而多相数字控制器则能够实时调整供电状态。德州仪器的组件可支持处理器向分布式稳压器(VR)请求特定电压,最大化单颗处理器的性能与能效。。德州仪器TPS53689T双通道降压数字多相控制器支持英特尔串行电压识别(SVID)协议,可以根据处理器需求动态调节电压,提供更快瞬态响应、更低输出电容、更高动态均流能力以及更精准电压调节。当CPU提出电压需求时,TPS53689T响应此类请求并输出精准电压,该产品支持英特尔 VR14 SVID 协议,输入电压范围 4.5–17 伏,输出电压范围 0.25–5.5 伏。

TPS53689T 支持跨电感稳压器(TLVR)拓扑(见图 3),内置非易失性存储器(NVM),采用德州仪器 D-CAP + 控制架构,具备低输出电容、快速瞬态响应与优秀的动态均流能力,同时原生支持输出电压压摆率可调与自适应电压定位功能。

image.png

图3 TPS53689T 多相控制器(左)支持交错式 TLVR 应用(右)。

除 SVID 总线外,该控制器还集成 PMBus 接口,可向主控制器上报电压、电流、功率、温度及故障信息,并支持所有可编程参数配置;配置默认值存储于非易失性存储器中,可减少外围元件数量。

最后,为统筹数据中心电源系统各组件协同工作,德州仪器推出C2000 系列实时微控制器。该系列产品具备高级安全特性,支持无缝现场固件升级。其中TMS320F28P65x 等型号集成 PMBus 接口,可与 TPS53689T 多相控制器等组件通信。

德州仪器解决方案已经将未来服务器供电系统从“静态电源”演变成了“实时智能能源调度系统”。

为什么800V DC体系对AI数据中心意义重大

TI与英伟达联合推动800V DC生态系统,真正重要的地方,并不仅仅是“提高电压”。而是它可能重新定义未来AI基础设施的底层架构。高压体系让兆瓦级AI机柜设计成为可能,未来AI服务器功率还会继续增长,800V DC是迈向MW级机柜的重要基础。另一方面,AI时代的电力消耗在运营成本中占比越来越大,更高效率意味着更低的单位词元(Token)输出成本,从而提升数据中心的运营效率。此外,这种全新的高压直流方案还能提升GPU部署密度,通过供电与散热优化可以在单位机架内部署更多AI加速器。与此同时带来的好处是减少铜材用量并简化布线,优化空间利用率。最特别的是,德州仪器的方案提升了AI数据中心的供电可靠性,通过数字监控、eFuse保护、预测性维护,提高系统稳定性。

过去行业总认为AI竞争核心在GPU。但随着AI模型规模持续扩大,一个越来越现实的问题开始浮现:未来真正限制AI发展的,也许不是芯片,而是能源系统。因为没有稳定、高效、低损耗的供电体系,再强的GPU也无法真正释放性能。

而800V DC架构的出现,意味着数据中心行业正在进入“高压化、智能化、数字化、集中化”的新时代。未来的数据中心,不再只是服务器的集合。它更像是一座高度复杂的“智能电力工厂”。

而德州仪器与英伟达推动的800V直流供电生态,则很可能成为下一代AI基础设施的重要底层标准之一。

相关标签: 暂无标签
相关推荐
评论区

登录后即可参与讨论

立即登录