咨询QQ:
      杂志订阅

      编辑

      网管

      培训班

      市场部

      发行部

电话服务:
 010-82024981
设为首页 | 收藏本页
从通算中心到智算中心:配电系统优化升级的研究分析
  • 随着AI算力需求的不断提高,通算中心升级为智算中心迫在眉睫,智算服务器单机柜功耗的增加对电气系统提出了更高的要求。本文通过对比通算中心升级为智算中心的配电系统优化升级方案,明确了在保障供电可靠性的前提下,构建DR架构与预制化电力模组融合方案的优越性。此外,面对智算中心业务部署的紧迫性,缩短基础设施建设周期显得尤为关键。希望本文的成果能为相关领域的实践提供有益的参考与借鉴。
  • 近年来,随着人工智能、大数据和云计算技术的爆发式增长,通算中心的计算能力已经无法满足对高性能计算、大规模并行训练等场景的需求。2024年,我国智能算力规模达725.3EFLOPS,同比增长74.1%。智算中心单台智算机柜功耗通常在10kW以上,根据部署智算服务器的数量不同,有的甚至高达40kW。对通算中心的配电系统进行更新迭代,成为行业顺应智算业务发展的关键举措。
      
      国外智算中心发达市场,配电系统以分布式冗余(Distribution Redundancy,DR)架构为主,主要原因是其造价相对较低,在激烈的竞争中更具优势,且该架构的可靠性已在大量的数据中心案例中得到了验证。为满足快节奏的交付需求,电气预制化技术在国外也已广泛应用。
      
      本文针对通算中心升级为智算中心过程中原有配电系统容量不足的问题进行研究分析,给出DR架构与预制化电力模型融合的优化方案,并结合某智算中心实际案例验证方案的有效性,为行业实践提供参考。
      
      一、通算中心与智算中心服务器机柜功耗分析
      
      1.通算中心单机柜功耗
      
      通算中心核心目标在于推动信息服务业的云化转型,通过实现资源的共享与弹性分配,用户能够根据自身需求灵活使用各类资源,具有显著的普适性,可广泛应用于信息系统建设领域。在服务器机柜配置方面,主要以部署搭载CPU的传统通用服务器为主,部分机柜配备GPU卡,也有部分未配备。配备GPU的机柜数量通常较少,一般为1~2块,主要用于3D图形渲染等传统图形处理任务,单机柜功耗为4~8kW。
      
      2.智算中心单机柜功耗
      
      智算中心核心目标在于提供强大的AI计算能力,全力支撑机器学习、深度学习等各类AI模型的训练与推理任务。其服务领域广泛覆盖自动驾驶、智慧城市、医疗影像识别和金融风控等前沿行业。智算中心的服务器机柜主要部署智算服务器。为了高效执行AI计算任务,智算服务器配备了有功能更为卓越的GPU、NPU、TPU等计算芯片,数量通常为4块或8块。以英伟达GPU为例,A100单卡功耗达400W,H100单卡功耗为700W。如此一来,一台配置8块GPU的智算服务器,仅GPU部分的功耗就可达3.2~5.6kW。因制冷系统存在差异,智算中心单机柜一般会部署3~5台智算服务器,致使单机柜功耗高达12~40kW,基本为通算中心单机柜功耗的3~5倍。
      
      二、通算中心升级智算中心面临的技术问题
      
      过去数年,国内数据中心行业大力建设通算中心,这些通算中心的服务器机柜单机柜功耗在规划建设标准为4~8kW。然而,当下人工智能领域需求呈爆发式增长,已建成的通算中心难以满足市场对算力日益增长的迫切需求。将通算中心升级为智算中心刻不容缓。智算中心是一个涉及多专业的复杂系统性工程,在已建成的通算中心升级为智算中心的过程中,因单机柜功耗急剧增加,各专业方案设计均面临诸多技术难点,主要有:
      
      1)原有供配电系统容量不足;
      
      2)原有柴油发电机系统容量不足;
      
      3)原有空调制冷系统容量不足;
      
      4)由于机电方案的调整,原有建筑结构面临大范围改造。
      
      三、配电系统提升方案研究分析
      
      1.配电系统架构的研究分析
      
      在当前国内外智算中心的建设中,配电系统架构有三种,分别为2N架构、DR架构和后备冗余(Reserve Redundancy,RR)架构。
      
      2N架构具有高供电可靠性的优势,其核心结构由两个完全独立且功能对等的供配电单元组成。每个供配电单元均具备独立承载全部负荷用电需求能力。正常运行工况下,两个供配电单元按照均衡分配原则,各自向负荷提供50%的电能,当其中一个供配电单元故障而停止运行时,另一个单元能够迅速响应切换至全负荷供电状态,向负荷提供100%的电能,从而保障数据中心的关键业务不受影响。但不可忽视的是,2N架构也存在一些固有弊端。从运行效率来看,较低的负荷率导致系统资源部分闲置,在一定程度上造成能源的浪费。在经济成本方面,由于需要配置双倍的配电设备,建设成本大幅增加。而且大量的配电设备在物理空间上占据较大的面积,对智算中心的建筑空间提出了更高的要求。在通算中心向智算中心转型升级的背景下,2N架构下数量庞大的配电设备,与通算中心有限的配电设备用房空间和电源容量之间的矛盾日益凸显。这种空间和容量的双重限制,使得2N系统架构在应对智算中心升级需求时显得力不从心。
      
      DR架构由N(N>3)个配置相同的供配电单元构成,N个单元在系统运行中同时处于工作状态。在负荷分配上,系统将负荷均匀划分为N组,每个供配电单元负责为本组负荷以及相邻组负荷供电,从而构建起一种“手拉手”式的供电模式。在正常运行状态下,每个供配电单元的负荷率稳定维持在66%。当某一供配电单元出现故障时,其所对应的负荷将自动切换至由相邻的供配电单元持续供电,以此保障电力供应的连续性。从能源利用效率角度分析,DR架构显著提升了变压器的负荷率,实现了电能的高效利用。在相同IT容量条件下,与2N系统架构相比,DR架构所需的配电设备数量更少,这在很大程度上降低了对建筑空间的需求,有效缓解了智算中心建设过程中的空间压力。在可靠性层面,欧美以及东南亚的数据中心市场已广泛采用DR架构进行大量数据中心的建设实践。在长期的运行过程中,该架构的可靠性经受住了实际考验,获得了客户的高度认可。
      
      RR架构核心特征是配备一套公共备用系统,用以支持其他主用系统。在整个系统运行过程中,一旦任意一套主用系统发生故障,这套公共备用系统就能迅速执行负荷倒换操作,确保系统的供电持续性,避免出现供电中断的情况。在正常运行状态下,RR架构中的各个主用系统所承载的负荷最大不超过100%。相较于其他系统架构,RR架构在负荷方面有显著提升,同时配电设备数量也大幅减少。这不仅提高了系统的运行效率,还在一定程度上降低了建设成本和空间占用。然而,RR架构也存在一些不容忽视的弊端。在系统在正常运行中,备用系统长期处于空载状态,造成资源的闲置。此外,系统中存在大量自动切换设备,使系统的复杂性和潜在风险增加。当配电系统中的某配电单元出现故障时,可能会出现个别自动切换开关无法可靠动作的情况,进而导致整个配电系统可靠性下降。目前,在国内外的智算中心建设中,RR架构的应用极为少见。其主要原因在于该系统可靠性相对较低,这使得客户在选择系统架构时对RR架构存在明显的顾虑。
      
      综上所述,在通算中心向智算中心升级转型的特定背景下,供电系统的可靠性成为保障智算中心稳定运行的关键要素。同时,原建筑电气用房空间资源不足的客观限制,也对新供电系统架构的选择提出了空间适配性的挑战。
      
      2.配电设备选择研究分析
      
      在智算中心领域,传统配电设备广泛采用分散式结构。这种结构模式下,高压柜、变压器、低压柜以及不同断电源设备(Uninterruptible Power Supply,UPS)通常由不同供应商提供。由于各供应商产品的设计差异,这些设备在尺寸规格上缺乏统一标准,导致整体占用空间较大。同时,低压柜与UPS之间的电缆连接需要耗费大量电缆,这不仅增加了材料成本,还在一定程度上增加了系统的复杂性和潜在故障点。传统配电设备全链路供电效率最高仅为94.5%。
      
      就UPS而言,在智算中心中,单台UPS的容量普遍较大,一般处于400~600kVA区间。以单台容量为500kVA的UPS为例进行详细分析,其主路输入回路、静态旁路输入回路以及输出回路均需选用3根4×150m+1×70m规格的电缆。因此,单台500kVA的UPS总计需要使用9根4×150m+1×70m的电缆。使用大量的电缆使现场布线工作繁琐复杂,极大地增加了布线工作量,进而导致项目交付周期延长,对智算中心的快速建设与部署形成阻碍。传统配电设备的具体形式如图1所示。
      
      近年来,随着智算中心等领域对变配电系统供电效率提升的迫切需求,同时为有效减少供电级数并缩短供电链路,预制化电力模组在行业内的应用愈发广泛。预制化电力模组创新性地融合了预制化与模块化理念,通过对传统变压器、无功补偿装置、低压柜、UPS以及进出线柜等多台散装设备的全部或部分功能进行有机整合,实现了系统的高度集成化,其全链路供电效率最高可达97.8%。
      
      在电力分配结构设计上,电力模组的低压柜顶部采用两路主干铜排布局,其中一路为市电铜排,另一路为UPS输出铜排。这种设计极大地减少了UPS主机输入输出电缆的使用量,有效降低了线路成本,以及因大量线路连接带来的潜在故障风险。此外,主干铜排采用工厂预制、现场拼装的模式,在工厂环境下实现高精度的加工制造,确保产品质量的稳定性和一致性。在现场施工阶段,仅需进行简单的拼装作业,大幅缩短了施工周期。某设备厂商的预制化电力模组如图2所示。
      
      下面以一套2N架构为模型,对比分析预制化电力模组方案与传统配电设备方案,见表1。
      
      通算中心向智算中心升级转型面临着两个关键问题:
      
      1)空间约束问题,原建筑电气用房空间资源的局限性;
      
      2)建设周期问题,客户期望智算中心快速交付,通常要求在项目实施过程中尽可能缩短建设周期,以满足日益增长的业务需求。
      
      四、智算中心配电系统优化升级案例分析
      
      1.案例背景
      
      某运营商数据中心机房楼共四层,原设计用于承载通算业务。基于日益增长的智算业务需求,计划在此通算机房内建设不少于380台智算机柜,每台机柜均部署3台智算服务器,单机柜功耗大幅提升至18kW。经全面评估发现,该数据中心二层原有两个机房的业务具备迁移至其他机房的可行性,因而决定利用这两个机房进行智算机柜的部署。这两个机房规划460台机柜,单机柜功耗5kW,对应供电容量为460×5kW=2300kW。现有配电系统为2N架构,配置了2台2500kVA变压器、8台600kVAUPS以及配套蓄电池,目前电气设备用房剩余面积约200m²。
      
      客户对于智算中心建设要求如下:严格遵循GB50174—2017《数据中心设计规范》国标规范中对于A级机房的要求。在变压器配置方面,除了沿用现有的2N架构外,还可考虑采用其他能够有效避免单点故障的系统配置,如DR架构或RR架构;在UPS配置上,既可以选择2N架构,也可采用一路UPS供电与一路市供电相结合的方式。
      
      项目工艺专业团队在充分考虑现有两个机房实际情况的基础上,综合考虑新增空调区域面积对机房布局的影响,通过精密的测算与规划,确定每个机房可建设199台智算机柜,总计可部署398台。经核算,本次智算机柜的供电容量需求为398×18kW=7164kW。智算机房平面布局情况如图3所示。
      
      2.配电系统优化升级方案分析
      
      1)2N架构+传统配电设备方案
      
      基于客户对配电系统的要求,首先智算机房变压器配置考虑采用最可靠的2N架构,UPS系统配置采用一路UPS供电和一路市供电相结合的方式,选用传统配电设备的方案进行设计。每个智算机房划分为两个配电单元:A-G列机柜为配电单元1(机柜总计99台),H-N列机柜为配电单元2(机柜总计99台)。配电单元1的架构如图4所示。配电单元2的架构图同配电单元1。
      
      经计算,配电单元1的IT负荷共99×18kW=1782kW,具体的负荷计算过程及详细数据见表2。配电单元1的2N架构选用两台2000kVA变压器。当两台变压器均正常时,变压器负荷率为42.5%。当其中一台变压器故障时,正常运行的变压器为全部IT负荷供电,此时变压器负荷率为85%,变压器负荷率满足系统正常及故障可靠运行要求。配电单元2的变压器及UPS配置同配电单元1。
      
      本案例中的智算中心包含两个智算机房,每个智算机房划分两个配电单元,共计4个配电单元,每个配电单元构成一套2N配电系统架构。基于2N架构、变压器及UPS负荷计算,智算中心配电系统需配置四套2N架构,共计配置8台2000kVA的变压器和16台500kVA的UPS。
      
      2)DR架构+传统配电设备方案
      
      鉴于原有机房楼配电室电气设备用房剩余面积仅约200m²,经评估,该面积无法满足四套2N架构的电气设备安装需求。为解决这一空间制约问题,采用DR架构+传统配电设备的方案进行优化配置。在新的配置方案下,每个智算机房划分为3个配电单元:A~E列机柜为配电单元(机柜总计71台),F~J列机柜为配电单元(机柜总计70台),K~N列机柜为配电单元(机柜总计58台)。3个配电单元构成一套DR架构,其配电架构如图5所示。
      
      经计算,配电单元的IT负荷共71×18kW=1278kW,配电单元2的IT负荷共70×18kW=1260kW,配电单元3的IT负荷共58×18kW=1044kW,具体的负荷计算过程及详细数据见表3。一套DR架构选用3台2000kVA变压器。当3台变压器均正常时,变压器负荷率为59.6%。当其中一台变压器故障时,其IT负荷由其他两台正常运行的变压器供电,此时变压器负荷率为90%。
      
      本案例中的智算中心包含两个智算机房,每个智算机房划分3个配电单元,3个配电单元构成一套DR架构。基于DR架构、变压器及UPS负荷计算,智算中心配电系统需要配置两套DR架构,共计配置6台2000kVA的变压器18台500kVA的UPS。
      
      3)DR架构+预制化电力模组方案
      
      充分考虑原有机房装配电室电气设备用房剩余面积仅约200m²,经严谨的空间评估与设备布局模拟分析发现,该面积难以满足两套DR架构+传统配电设备方案的电气设备安装需求。为有效解决这一空间瓶颈问题,实现智算中心配电系统的高效搭建,本案例进行了进一步优化设计。在DR架构的基础上,创新性地采用室外集装箱预制化电力模组的形式,将智算中心所需的电气设备部署于机房楼室外。这种部署方式既突破了室内空间的限制,又利用了集装箱预制化电力模组集成度高、安装便捷等优势。其配电架构如图6所示。
      
      智算机房供电单元划分、变压器及UPS的负荷计算与DR架构+传统配电设备方案一致。
      
      室外集装箱采用双层结构布局,该布局设计充分考虑了电气设备的功能性与安全性需求。其中,二层设置3个配电室,一层设置3个电池室。具体而言,3个配电单元的预制化电力模组分别安置于二层的3个配电室内,而3个配电单元的蓄电池对应设置在一层的3个电池室内。这种布局方式实现了电气设备与蓄电池的物理隔离,有效降低了因电气故障引发的电池安全风险,同时满足了A级机房对电气设备分区布局和物理隔离的严格要求。
      
      3.配电系统优化升级成效及案例建设流程
      
      在本案例智算中心配电系统优化升级中,综合考量并深入分析了三种配电系统方案,为全面评估各方案的可行性与经济性,对各方案的电气设备配置数量、电气设备占用面积以及电气设备投资进行了详细的量化分析。详细数据见表4。
      
      由表4可知,DR架构+预制化电力模组方案展现出显著优势。相对于2N架构+传统配电设备方案,DR架构+预制化电力模组方案的电气设备数量减少了35%,这主要归因于预制化电力模组高度集成化的设计,有效精简了设备数量;在电气设备占地面积方面,减少了13%,其紧凑的布局和高效的空间利用特性得以充分体现;电气设备投资三种方案基本持平。此外,预制化电力模组在交付周期上具有明显优势,因其采用标准化、模块化生产,能极大缩短生产周期。
      
      在本案例中,将通算中心两个机房升级为智算中心机房,共建设398台智算机柜,其供电容量需求总计7164kW。综合考虑空间限制、成本效益以及交付周期等因素,配电系统最终选定DR架构+预制化电力模组方案。在原有机房楼室外建设双层集装箱预制化电力模组,为两个智算中心机房构建两套DR架构。集装箱、预制化电力模组等大部分设备采用工厂预制的方式,在工厂完成设备的组装与调试,然后运输至现场进行快速组装。在工厂预制的同时,现场同步开展集装箱基础施工,这种并行施工模式大大缩短了项目的交付周期。
      
      作者简介
      
      陈阳阳,1989年出生,拥有十余年电气设计与数据中心技术管理实战经验。取得国家注册电气工程师(供配电)、一级注册建造师(机电工程)、一级注册消防工程师执业资格,始终致力于推动电气与数据中心领域的技术创新及高效落地。
      
      叶晓剑,1990年生,长期从事数据中心工程设计、技术创新和研究工作,具有国家注册电气工程师(供配电)执业资格,Uptime认证工程师(ATD),擅长数据中心架构制定及优化。


      
                                                 (转载自“深知社”)
      
      编辑:Harris
      
     

  •