数字经济爆发下,全球数据中心耗电量占比逐年攀升。据统计,2024年我国数据中心能耗总量1660亿千瓦时,约占全社会用电量的1.68%,同比增长10.7%。2024年全社会用电增速为6.8%,数据中心用电量增速远高于全社会用电量平均增速。数据中心能耗已成为不可忽视的能源消耗领域。随着人工智能技术的迅猛发展,AI相关行业正经历着前所未有的快速增长和技术迭代。这一变革不仅推动了社会的进步,也带来了对计算能力的巨大需求。智能计算中心,作为AI技术发展的核心基础设施,正面临着前所未有的挑战。
01 AI行业的快速发展
AI技术的进步和应用场景的拓展,使得智能计算中心的建设成为推动行业发展的关键。技术的快速迭代要求数据中心能够迅速适应新的计算需求,保持技术的领先地位。
02 高密散热的需求关注
随着AI计算密度的增加,散热问题成为智能计算中心必须面对的挑战。高密度计算设备产生的热量如果不能有效管理,将直接影响数据中心的稳定性和效率,甚至可能导致设备损坏和性能下降。
03 液冷技术的应用
为了解决高密度散热问题,液冷技术作为一种高效、环保的冷却解决方案,已经成为智能计算中心散热管理的重要趋势。液冷技术能够有效降低数据中心的能耗,提高设备的散热效率,是应对高密度散热挑战的有效手段。
随着芯片功耗增长加速,在面对不同业务需求时,制冷解决方案变得更多多样。随着机架功率密度的不断攀升,行业内普遍认同,40~60kW/Rack已经达到了风冷极限,超过这个能力边界,无论是考虑到散热能力还是散热成本,必须开始部署液冷。
机柜功率密度在20~25kW以内时,常规远端风冷方案即可解决服务器散热需求。当机柜功率密度进一步提升,单机柜功率密度在25~45kW时,就应该开始考虑近端风冷的解决方案。风冷方案再叠加背板热交换器(Rear Door Heat Exchanger,RDHx),可以进一步解决单机柜60kW以内的散热需求。单机柜功率密度在40~60kW时,就可以开始考虑采用液冷,但根据服务器或芯片不同,也可以更早开始采用液冷。即使采用液冷,根据风液比不同,服务器仍然有5%~50%的热量需要通过风冷散热来解决,风液混合将成为大多数高热密度机柜散热方案。
根据服务器供液温度要求,室外一次侧需选择不同的散热方案。服务器供液温度要求大于40℃时,室外一次侧散热可以采用完全自然冷的解决方案,当服务器供液温度要求较低时,室外一次侧需要采用机械冷却。
在单机柜功率密度小于40kW时,考虑服务器类型,往往更多选用风冷技术。为实现PUE要求,各类自然冷技术在机房空调设备中已经大量应用。从节能技术维度,可以分为三类:
01风侧自然冷方案
通过利用室外低温空气直接为数据中心供冷。在实际应用中有两种方案:
直接空气自然冷,直接引入自然界新风对数据中心进行冷却,但该方案受空气质量、湿度等因素限制,适用场景较为有限。
间接空气自然冷,借助换热器实现自然界低温空气与数据中心高温空气的热交换,以降低机房温度。此类方案可有效解决空气质量及湿度问题,但在夏季室外温度较高时,其应用仍会受到限制。
02水侧自然冷方案
通过利用低温水源或者水蒸发潜热来为数据中心供冷。在过往的水侧自然冷应用案例中,有直接引入湖水为数据中心供冷的方式,但此方案受水质条件,以及可能对当地生态环境影响的限制,应用范围较窄。另一种通过水蒸发利用自然冷的方式应用则更为普遍,常见的冷却塔及间接蒸发冷设备等,在开启水喷淋的情况下,均属于水侧自然冷,通过水的蒸发潜热利用自然冷源。
03氟泵自然冷方案
通过氟泵来驱动冷媒循环,付出少量机械能,在室外低温时将室外自然冷源的冷量通过冷媒相变传递至机房,从而达到降低机房降温的效果。一般氟泵自然冷和压缩机制冷集成在一个系统里,当室外低温时,压缩机停止运行,启动氟泵完成制冷循环。当时外温度较高时,则需要启动压缩机来完成制冷循环。
以上自然冷方式可以单独应用,或者组合应用,充分挖掘室外自然冷潜能,实现节能效果。近期在数据中心领域应用比较多的混合双冷源方案,即为一种组合式的自然冷方案。机房空调设计两组盘管,层叠安装。高温回风首先经过第一组盘管进行预冷,此时预冷冷源可以是氟泵自然冷,也可以是冷却塔提供的冷却水,之后通过第二组盘管,第二组盘管可以是氟泵自然冷,也可以是压缩机机械制冷,根据制冷需求进行自动切换。
通过“预冷+补冷”的控制思路,实现自然冷源利用最大化,从而实现空调设备高能效,有效帮助降低数据中心PUE。
在空调机组100%输出的条件下,水侧自然冷通过利用更长时长的自然冷,制冷因子更低。
在空调机组75%输出条件下,可以看到氟侧机组的能效提升更快,在北京以及上海,均可表现出比双冷源机组更好的节能效果。
随着负载率进一步降低,在空调机组50%输出条件下,氟泵自然冷机组的能效已经全面优于水侧自然冷双冷源机组。
不管采用哪种双冷源,北方全年室外环境温度更低,可以收获更好的节能效果。随着负载率降低,氟泵自然冷工作时长显著增加,氟泵功耗远小于水泵功耗,在各地均可获得更好的节能效果。可以看到,利用“预冷+补冷”设计方案,两类双冷源方案可达到系统级的制冷因子相当,在选择具体方案时,需结合项目地自然条件进行选择。
液体冷却是指利用高导热性能的流体介质(诸如25%丙二醇诸如25%丙二醇,去离子水、冷却液或制冷剂)而不是空气来冷却数据中心。液体直接参与数据中心关键发热源(如服务器内部高性能芯片)的热量交换过程。液冷技术缩短了热传导路径,使得热量能够更直接、更有效地从热源导出,进而显著降低了对服务器内部风扇辅助散热的依赖,从而降低整体能耗与噪音水平。
数据中心液冷技术的应用可细分为两大主流类别:
直接到芯片(Direct-to-Chip,DTC)冷却技术,常被称为冷板冷却,其特点在于将冷却液直接导入至服务器内部,通过紧贴芯片的冷板结构实现高效热交换。
浸没式冷却技术,该技术将整个或部分服务器组件完全浸没于非导电冷却液中,实现热量的全面、均匀散发。
在DTC配置中,液体不直接与电子元件接触,液体冷却剂被泵送到解决服务器内部电子元件散热的冷板上。虽然大部分热量都被冷板带走了,但仍然需要风扇来帮助去除电路板层面的热量,尽管风量和风速都非常低。在这种情况下,一些设计通过空气将热量从服务器机箱交换出去,而另一些设计则需要在机架或行级使用热交换器将热量传输到主冷却回路。
CDU是液体冷却系统中必不可少的组件,可在整个系统中均匀分配冷却液。CDU建立了一个独立的二次侧回路,与提供室外散热的一次侧回路隔离开,并调节和控制冷却液的流量以保持二次侧回路所需的温度和流量。其次,CDU要采用高耐腐蚀性的不锈钢材质,确保与冷却液的完美兼容,有效防止腐蚀。设计上尤其要注重关键器件的冗余备份,如电源、泵、传感器及过滤器等,确保系统在任何情况下都能稳定运行。同时,CDU需内置精准温控系统,能有效消除服务器CPU和GPU的热冲击问题。此外,配备补液罐以满足长期运行需求,并设有自动排气装置以排除空气,保持冷却效率。
1)供液温度
冷板液冷系统的供液温度设计需充分考虑不同芯片及服务器制造商的特定要求,如Dell可能接受高达32℃甚至更高的供液温度,而Nvidia则设定在25℃至45℃的较宽范围内。需要注意的是,必须严格避免供液温度过低,以防止水蒸气凝结现象的发生,这可能严重损害IT设备的正常运行。此外,系统还需具备强大的稳定性,确保在一次侧流量出现波动时,二次侧仍能维持稳定的供液温度,以保障整体散热效能与设备安全。
2)供液流量
冷板液冷系统的供液流量设计是确保高效散热与稳定运行的关键环节。CDU(冷量分配单元)在此过程中扮演着核心角色,负责精确调控一次流体与二次流体的流量。具体而言,二次流体需维持稳定的流速进入IT设备,以在设备满载时能够有效从冷板中带走所有热量,保持IT入口温度的恒定。同时,一次流体的流量则根据需散热的热量动态调整,并依据CDU的接近温度(ATD)进行调整。
为了确保流量控制的精准性,系统要采用压差控制并辅以实时监控,以确保系统中的泄漏不会导致压力下降。此外,通过CDU内,泵与电源的冗余设计,系统能够在关键业务场景下保障流量的连续供应,进一步提升整体系统的可靠性与稳定性。
3)过滤要求
冷板液冷系统要求冷却液顺畅通过冷板内极其微小的通道,这些通道的宽度可精细至低于50微米,甚至达到30微米以内。堵塞不仅会限制流量,甚至可能完全中断IT设备的冷却,导致维护成本急剧上升,因此系统对冷却液的过滤精度提出了严格标准。通常,这一精度需低于冷板通道的最小尺寸,业界经验倾向于采用25微米或更细的过滤级别。此外,为确保系统长期保持清洁状态,CDU(冷量分配单元)需持续进行在线过滤,这是维护系统高效运行与延长使用寿命的关键措施。
4)流体选择
在设计冷板液冷系统的初期,选择合适的流体化学成分及可靠的供应商非常重要。一旦确定流体策略,后续的任何更改都将涉及繁琐且成本高昂的清洗与净化过程。此外,流体的选择还会在调试阶段带来显著复杂性,包括循环测试、杂质冲洗以及系统气泡的排除,这些工作对于每台服务器及整体解决方案的顺利运行都至关重要。在整个系统使用周期内,对液体的持续关注同样不可或缺,需定期进行pH值、外观、抑制剂浓度及污染物水平的检测,以确保其性能稳定与系统的持续高效运行。同时,所有冷却液均需遵循严格的存储与处理规范,并配备适当的个人防护设备以保障操作安全。
在冷板液冷系统的二次侧流体选择中,存在三种主流方案。首先,去离子水配方液换热效果优越,然而其腐蚀风险不容忽视,需采取额外措施加以防范。其次,乙二醇配方液虽具备一定的防腐能力,但其毒性相对较大,且在环保要求较高的地区,其排放处理成为一大现实问题。最后,丙二醇配方液作为Intel、Nvidia等业界巨头推荐的选择,由于其防腐效果更好,成为众多用户信赖的优选方案。
在选择时,需综合考虑流体性能、成本、环保要求及安全性等多方面因素,以做出最适合自身需求的决策。
5)故障预防和检测
在冷板液冷系统中,除了二次流体网络内其他传感器的监测外,CDU的严密监控与管理是预防并尽早发现故障的关键。数据中心尤为关注泄漏问题,大部分泄漏案例发生在manifold与服务器软管快速断开附件处,对IT设备影响很小。但服务器机箱内部的泄漏,特别是发生在内部manifold、软管与冷板之间的泄漏,则对IT设备构成重大威胁。因此,实施额外过滤与传感器在内的防错系统至关重要,这些措施不仅能在热交换性能下降时提供预警,还能有效遏制人为错误导致的污染物增加或液体质量漏检风险,从而全面提升系统的稳定性与安全性。
液体辅助DTC冷却:机箱级、闭环的独立产品,带有冷板、泵和散热器,针对处理器的局部热点。热量通过服务器内部的液体-空气热交换器消散。与液体-液体DTC冷却相比,这种液体辅助DTC产品不需要和服务器外部的液体进行热交换,也不需要CDU或其他液体基础设施或对现有基础设施进行修改,同时能够解决高密度点。
全液冷板冷却:目前大部分DTC冷却服务器仅覆盖高功率、高发热部件,如中央处理器(CPU)、图形处理器(GPU),其他部件仍需通过风扇提供的气流进行冷却,包括内存、存储、硬盘驱动器/固态驱动器、外围组件互连高速通道/开放计算项目(OCP)卡和电源单元。全液冷板冷却配置将为所有部件配置冷板,并使用液体进行冷却,完全消除风扇,进一步提高电源使用效率(PUE)。
根据运行时液体的状态,DTC还可以进一步分为单相和双相两类。在单相系统中,液体冷却剂始终保持液态。在双相系统中,液体冷却剂蒸发以将热量从液体中转移出去,然后通过热交换器冷凝并转换回液态。
负压液冷:有三个气密性较好的液腔,分别是主真空腔、储液腔、辅真空腔。主真空腔和辅真空腔交替保持高真空度确保工艺冷媒从服务器冷却环路流回,储液腔保持较低的真空度使工艺冷媒流进服务器冷却环路。二次泵采用低扬程潜水泵,安装于储液腔内部,当检测到二次侧供液温度低于机房的露点温度时,潜水泵将停止工作以确保不会有凝露产生。配有真空泵等负压系统(包含气液分离器、消音排气口,空气流量传感器),用以保证三个腔体的真空度。三个腔体各配有两个气动开关阀,一个接通真空泵,另一个接通大气相连的气液分离器,用于控制各个腔体的真空度,以确保液体顺利循环。
服务器不同,服务器运行的冷却液体温度不同。根据水温,冷板液冷有不同的制冷系统架构设计方案。当一次侧水温在W32及以下时,一次侧冷源不能完全依靠冷却塔全年供应,需要补充额外的机械制冷,即冷冻水冷源机组,常见可用的冷冻水冷源机组有水冷冷水机组、风冷冷水机组等。
1)同源液冷方案和风冷部分均采用冷却塔同源冷却塔方案,不同末端例如液冷部分(XDU)以及水冷型空气处理机组(AHU)等所需负荷都由同一冷却塔进行供应。
2)非同源液冷方案采用冷却塔,风冷部分采用机械制冷或冷机非同源方案,包括高水温不同源风冷和高水温不同源冷冻水方案。当采用不同源风冷补冷方案时,精密空调和液冷CDU分别采用不同的冷却塔或干冷器;当采用不同源冷冻水方案时,空气处理机组(AHU)冷源采用冷水机组,液冷部分(XDU)冷源采用冷却塔。
3)风液方案:机房已有风冷精密空调设备,需要部署少量液冷机柜,此时集中式风液型CDU方案是优选方案。CDU和液冷机柜间通过软管连接,液冷服务器中的热量通过冷板,Manifold,以及管路传递至风液CDU盘管,最后散至机房,再通过机房空调将所有热量带至室外。
在做液冷方案选择时,需要考虑服务器可接受的冷却液温度,以及机房条件,来选择适合的制冷系统架构方案。
在当前的AI算力范式下,扩大算力的一个基本逻辑是不断提高“堆叠”密度,由此带来(单位空间内)的能量密度持续上升,将进一步推动液冷技术的应用。基于此,对于未来智算中心液冷技术发展方向可以概括为以下两点:
目前主流的冷板式液冷仍然存在较大比例的热量需要风冷解决,这对智算中心的复杂度造成了很大影响。进一步降低风冷占比,是进一步提升单机柜功率密度、降低数据中心复杂度的迫切需要。传统冷板方案可进一步优化服务器和冷板设计,将主要发热器件尽可能使用冷板散热,单相浸没式液冷、全覆盖冷板液冷也是可以大力发展的方向。单相浸没式液冷在解决高功率芯片扩热问题后,可以实现100%液冷。全覆盖冷板方案可以较好地适配AI服务器,而不用考虑普通服务器的通用性要求。
进一步降低风冷占比后,可能会面临以下难点:
芯片层面
由于制程改进的效果越来越有限,利用先进封装技术将多个较小的芯片拼装为一体的Chiplet技术正得到普遍的应用,其中的一个重要趋势是3D堆叠,这意味着单位面积上的晶体管数量会继续高速增长,如何将芯片封装内的热量有效的传导出来,将成为行业面对的一大挑战。
机柜层面
以NVIDIA GB200 NVL72为代表的解决方案目前采用风液混合模式,柜内互联采用大量的铜缆,对散热风道的设计形成了一定的阻碍。随着机柜功率的进一步提高,需要提高冷板在各节点内的覆盖率,向全液冷的方向演进。
随着AI芯片功率的进一步提升(1500W-2000W以上),风冷散热器已达瓶颈(1000W),单相水冷板也将很快到达散热能力瓶颈(1500W),相变散热技术是必然的方向,包括相变浸没液冷和相变冷板液冷。相变冷板又包括泵驱两相(Pumped two phase)冷板和自驱动两相(Passive 2-Phase)冷板等方向。相比较而言,泵驱两相冷板国外有较多的研究,但其复杂度较高、可靠性问题比较难以解决;自驱动两相冷板的技术基于环路热管(LHP)技术,挑战更大,但其具有解热能力强、高可靠、易运维、长寿命等优点。
编辑:Harris
