从系统架构视角看AI数据中心:算力布局带动设备快速增长
- 2025/6/30 6:49:07 作者: 来源:思瀚产业研究院
-
Deepseek以$87,072/天的低算力成本训练出领先全球的大模型,推动AI基建加速,带动上游服务器、电力设备等市场需求陡峭上升,行业景气度持续攀升。
AI训练与推理带动算力需求快速提升
大模型应用场景及多能力融合持续催化商业化进度:Deepseek以低算力成本刷新大模型应用进程,随着海内外大厂为模型训练、储备算力、云计算、大模型多行业应用普及而进入重金布局阶段。从Manus开始,AlAgent相比于Chatbot,单词任务对Token的消耗更高。
算力需求层面:1)根据信通院测算,2017-2022年,全球算力规模增长CAGR达到55%。2022年,全球算力总规模达到900左右EFLOPS。2)就国内而言,根据环球零碳及未尽研究,2023-2030年我国AI算力规模增速CAGR约70%。
技术层面:以海外为例,英伟达芯片从A100-GB200,功率持续提升,对应服务器机柜功率密度提升,数据中心功率消耗提升带来对配套电力设备、冷却系统更高的要求。
云厂Capex持续攀升,设备层面迎来行业beta强支撑
云厂Capex持续攀升,AI基建加速,强beta支撑。2025年海外云厂Capex增速预计在50%左右。国内阿里表明未来三年资本开支会超过过去十年。AI基建加速,带动整个上游AI/通用服务器、交换机等IT设备、配套电力设备、冷却系统等市场需求陡峭上升,行业景气度上行。
关于NV算力的讨论
Deepseek对NV算力的冲击怎么看?
Deepseek以$87,072/天的低算力成本训练出领先全球的大模型,其V3/R1推理系统的优化目标是更大吞吐,更低延迟,主要采用大规模跨节点专家并行EP方案,EP架构对通信速率要求较高。随着推理端大规模应用,我们认为未来对单位token成本要求越低但并发数要求越高的场景下,且Manus等Agent单次任务Token生成长度会很长,NVLink的通信速率表现较优异,应用前景广阔。
AI数据中心电力系统概览
数据中心级别:分为A、B、C三级,根据数据中心使用性质、数据丢失或网络中断在经济、社会上造成损失影响程度确定级别,不同级别配套的电力设备会有部分差异。我们假设未来AIDC智算中心均为A级建设要求,后续讨论均基于此假设。
我们认为整套供配电系统核心:
不考虑损耗的情况下,各环节的变电和负载用电量保持一致。
电压、电流层面:从110KV的交流市电,最终变成元器件、芯片等可承载的0.8V等电压等级的直流电。n我们认为数据中心电力设备可以大致分为3大构成:(详见后页)
高压变电设备:一般把市电电压110KV降低到400V,设备涉及110KV油变—高压配电柜-10KV变压器。
弱电侧设备—接触机房:设备环节涉及400V低压配电柜—UPS/HVDC及后续环节。
市电断掉时的备用电源:一般包括较长时间供电的柴油发电机组、供电15分钟以上左右的UPS/HVDC及配套蓄电池组、本次GTC大会可能展示的各家超级电容、BBU锂电池(见后文)。
AI数据中心电力系统架构
供配电系统图示及未来可能的Side-car方案
具体供电过程与各环节电源设备的作用:
机房外高压配电:
引出市电:目前AI数据中心因为更大的耗电量,一般引出110KV的线。
主变环节:AI数据中心建设方有时会自建变电站,变电站内置开关设备及变压器等。油变把市电交流电从110KV—10KV。
备用电源柴发:一般数据中心楼里会放置柴油发电机,断电时会通过自动切换开关系统ATS进行切换供电
配电变环节:把10KV的电压降压到400V,到此高压配电环节基本结束。
机房相近弱电侧设备
不间断电源:即UPS或HVDC把电压一般从400V→220V/380V/336V等,该环节电源在市电正常下做改变电压、实现交直流的转变过程;
服务器电源/PSU:一般把UPS/HVDC输出的电压从上述等级降到50V,最终输出直流电,一般位于机柜内。未来机柜功率极高,柜内难以承载时会设置专门的Side-car放置相关电源设备。
DC-DC电源:50V直流电经过DC-DC变成12V直流电。再经过内部电路把12V的电逐步分出去,变成芯片和各类元器件需要的0.8V等电压等级。
AI数据中心电力设备冗余配置及对应功率测算
AI数据中心供配电设备冗余配置:单个数据中心内,供电系统流程的各环节的设备冗余配置数量可能不一样,较为常见的冗余存在N+X、2N两种模式。
如何计算数据中心总功率?
功率有两个口径,服务器等IT设备功率和数据中心总负载功率。数据中心负载设备包含服务器、网络设备、存储等IT设备以及冷却、照明、安全系统等,随着IT设备功率提升,其在数据中心能耗占比可达80%,PUE为1.25左右。
数据中心功率的计算:假设数据中心IT设备(包含服务器、网络机柜、存储等)功率1GW,因为还有其他设备如液冷、照明等耗电,整个数据中心功率=IT设备功率*PUE。根据维谛白皮书,未来的总体趋势是新建数据中心PUE<1.3,即1GW的IT设备对于数据中心功率大概是1.25GW。
可2N冗余:(注:本文描述的是我们认为相对可能多配置的情形,并不是非要2N配置,1.5N等都可以,可自行选择功率冗余度)
针对总数据中心功率或可做2N功率冗余配置的环节:根据2017年《数据中心设计规范》,A级数据中心,变压器、UPS/HVDC环节多为2N冗余。假设数据中心负载功率为1GW,考虑功率因子0.848下,如果2N冗余配置,在满足全数据中心运作需求时,各环节设备总功率需要至少1GW/0.85*2=2.35GW。
针对服务器机柜功率也可2N冗余配置:服务器PSU(ACDC电源)。
N+X冗余:X=1~N
针对总数据中心功率或可做N+X配置:柴发。
我们认为,假设数据中心负载功率为1GW,考虑功率因子0.85下,在满足全数据中心运作需求时,如果X=1,国内目前普遍采取N+1台配置,那柴发环节总功率是数据中心负载功率/功率因子=1GW/0.848=1.18GW。
远期可能的非2N冗余架构
AI数据中心未来也可能需要简化配电架构设计提升系统利用率,降低配电设备占地面积,DR(DistributedRedundancy)/RR(ReserveRedundancy)/N+1架构会被推广和应用,此类架构下,各设备冗余度下降,负载率上升。2N冗余下,各设备向负载提供50%的电能,剩下50%是冗余。RR架构下,各设备向负载提供66.6%的电能,冗余度33.3%左右。
编辑:Harris
Deepseek以$87,072/天的低算力成本训练出领先全球的大模型,推动AI基建加速,带动上游服务器、电力设备等市场需求陡峭上升,行业景气度持续攀升。
