咨询QQ:
      杂志订阅

      编辑

      网管

      培训班

      市场部

      发行部

电话服务:
 010-82024981
设为首页 | 收藏本页
数据机房空调集群AI优化系统技术
  • 针对数据中心主机房空调末端面临的节能优化问题,本文介绍了一套完整的融合自动化群控、大数据、AI人工智能算法、先进能源系统管理经验的AI能源调度优化指挥运行系统。系统可通过跨单元数据融合、自控系统能力升级、AI人工智能算法模型等方式构建数据中心能源系统的“全天候智能调度数字员工”,提高机房能源系统的精准调控能力、提高现场运维团队的响应能力、提高对能源系统底层情况的感知能力,实现智能、增效、降本、便捷的多维度提升。
  • 一、背景
      
      随着全球大模型、智能体技术模型迭代速度不断加快,无论是企业级应用还是个人使用者都在不断增加,数据中心作为支撑其运行的核心基础设施,建设规模和运营需求均呈现指数级增长。据国际数据公司(IDC)统计,全球数据中心市场规模预计将从2020年的2000亿美元增长到2025年的3000亿美元以上,年复合增长率超过8%。然而,数据中心规模的快速扩张带来了严峻的能耗挑战。在数据中心的总能耗中,制冷系统的能耗占比高达30以上,是仅次于IT设备的第二大耗能系统,详见图1所示。
      
      传统的数据机房精密空调控制策略主要依赖单体设备进行PID控制,典型的控制组合是根据回风温度设定值控制风机转速,根据送风温度控制冷冻水阀开度。各空调设备之间没有协调机制,因此无法针对同一问题目标进行平衡优化,导致系统内部分空调负荷高居不下,部分空调负荷极低,整体运行效率低下。由此可看到当前数据机房末端空调系统面临的主要问题:
      
      1)机房内多末端设备控制逻辑独立运行,无法实现全局优化,导致能效比偏低;
      
      2)随着以GPU服务器占比增高,机房负载分布更加复杂,热负荷波动更加剧烈,机房内热负荷分布日趋复杂,传统控制方式难以灵活应对,只能通过整体降低空调温度设定来应对负载变化。
      
      数据机房冷却由于耦合了机械、换热、流体、控制等多专业领域,其控制问题呈现复杂非线性强耦合的特点,同时在实际运行中受到冷源系统运行状态、外界环境约束的多重限制,其运行优化一直为行业内难以解决的技术问题。针对数据机房制冷系统的安全要求程度高的情况,如何在智能节能运行与安全保障中找到合适的技术平衡点更是近几年研究的前端及热点问题。大部分研究人员将研究重点聚焦在集中式制冷系统优化,忽略了对机房内多精密空调群组之间的协调优化问题。部分聚焦在末端优化的研究者尝试引入强化学习、PINNs等模型技术,希望通过设计更合理的反馈机制实现对数据机房末端空调集群优化问题的解决与突破。然而由于仍然面临数据完整性不足、历史运行工况过于集中的问题,所增加的历史数据带来的数据底层价值有限,仍然无法形成系统性优化方法。
      
      二、总体技术路线
      
      针对以上问题,本文以某典型机房为研究对象,研发了机房空调集群AI优化系统技术,采用机理与数据融合的人工智能(AI)技术,通过“温度场快速估算”—“末端集群动态分组”——“空调策略批量执行”的系统化方式构建机房控制自动调度大脑,实现对数据机房的全天候灵活管控。考虑到数据中心制冷系统重要性高、负荷相对稳定,实际系统控制难点在于运行的平衡匹配等特点;本研究工作重点在于对数据机房温度场的快速估算、负荷变化情况快速估算及制冷系统的设备群组特性建立机理模型。系统实现分为离线训练与在线寻优两部分。系统实施完成后,控制指令经过安全保障的控制切换模块实现对系统策略的批量安全下发。整体技术路线详见图2,其主要技术简介如下。
      
      1.数据处理技术
      
      数据质量(包括覆盖范围、数据准确性、稳定性)极大地决定了模型的准确性及最终结果的可靠性,因此在进行数据分析、系统评估、优化模型训练及实时推断前,足够的数据处理是必不可少的。本系统建立有灵活的数据清洗算法库,针对数据机房各类运行、能源数据进行校对、清洗、填充,涵盖冷水系统、电系统、风系统、温度场多种系统类型,适配从设备级到系统级的多个层级,能够根据实时采集数据的质量通过后台配置化的方式构建专属于每个项目的数据处理流。
      
      以电量智能电表在实际计量中,存在累计值复位、临时数据中断等情况,由此可能造成在AI算法实时计算过程中导致的用电量为负、采集计算电量与实际电量不匹配等问题。在实时运行中,电量清洗数据处理采用与数据采集同样的频率,每次处理中首先补齐缺失的时间点、对齐各数据点时间戳,其次根据累计值计算电量变化量,最后针对超出正常范围(低于零或大于设定的极值)进行空值替换,并对空值进行填充:
      
      1)若正向有功电能累计值出现累计值复位情况,则填充空值为上一时刻的用电量;
      
      2)若正向有功电能累计值正常,是临时数据中断导致全部累计至最后一个时间周期中,则将最后一个时间周期的用电量平均至之前的所有空值。
      
      2.机房温度场加速计算方法
      
      在数据机房管理中,温度场的快速准确计算对于判断机房散热环境、确保设备稳定运行和提高能效至关重要。传统的CFD计算方法结果精确,但单次计算时间长,时效性较低,往往难以保证机房实时优化的效果,而将大数据加速算法与计算流体动力学(CFD)仿真相结合,可以显著提升温度场计算的效率和准确性。
      
      本文大数据加速算法通过分析历史温度数据、环境参数、设备运行状态等信息,能够快速识别出影响机房温度分布的关键因素。这些算法利用机器学习和模式识别技术,从海量数据中提取有用信息,建立预测模型,从而为CFD仿真提供更为详细的过渡数据,加快CFD的计算速度。通过分析温度场数据,可以识别出热负荷集中的区域,进而调整空调布局或优化冷热通道设计,以达到节能减排的目的,详见图3。同时,这种结合方法还可以预测机房在不同负载和环境条件下的温度变化趋势,为机房的长期规划和管理提供支持。
      
      3.末端空调集群动态分组
      
      对于数据机房中某一高温热点,理论上来说周边所有精密空调的运行状态都能影响这一点位置的温度变化,然而在实际运行中,由于不同机组距离热点距离不同、下送风地板风阻变化不同、精密空调调整精准度不同导致了对于某一具体位置消除热点,最有效的机组也是在不断变动的。本技术利用持续运行的历史数据,对空间位置温度变化和空调群组运行状态进行深度挖掘与相关性对应。在每一次策略生成时动态更新群组关系,以实现对不同位置高温热点的准确调整。
      
      4.末端空调集群AI优化运行控制算法
      
      传统的机房控制中,每台空调根据进风及回风温度独立对其风机频率进行调整。其风机频率、水阀开度只跟回风温度设定值和实际回风温度的差值成反比关系,并使用PI控制进行调整。但是实际系统中,送风温度和回风温度密切相关,又受到服务器负载变化所影响。传统控制方案割裂了送风和回风温度的相关性,使得送风和回风不能协调工作。在功耗过高时,造成了风机频率激增而送风温度无法匹配下降的问题,使得空调散热效果变差。在功耗过低时,造成了送风温度无法匹配上调,消耗了多余的冷源,造成了额外能源的浪费。
      
      传统的机房控制中,随着工作时间的增长,系统容易进入如下的工作状态:部分台空调由于其回风温度高于设定值,会进一步提高风机频率,风机频率的提高导致单位时间内空调热负载增加,当热负载超出当前冷源可以带走的上限值时,风机频率的提高无法进一步降低空调温度,又使得回风温度设定值和实际值的偏差进一步增大,导致风机频率进一步提升。此时该设备进入过度负载的情况,并且无法通过自行调节缓解。同时,对于该空调的周边空调而言,由于过载空调承载了较多热负载,其他周边空调的热负载反而开始降低,使得周边空调风机进一步降频。进一步加深了该过载空调的负载。综上所述,部分空调会持续工作在较高负载的状态且无法自行调节的状态。而风机功耗整体上满足频率的3次方指数关系,使得整体的系统功耗较高。
      
      本系统在“末端空调集群动态分组”中所建立的集群动态分组的基础上,通过机组间运行工况空间分布判断机房内是否出现负载失衡的情况、出现局部高温的概率。当机房内温度场分布合理没有高温风险时,算法控制系统进入机房精校模式,算法对于失衡机组进行运行上下限限定,同时密切关注调整后各温度测点的温度变化梯度,实现精密空调策略的批量安全生成。
      
      三、调度控制平台应用
      
      为实现该技术在工程项目中的应用,研究团队重点关注控制策略的安全性、可靠性(详见图4、图5):
      


      1)在网络建设时,采用环网网络价格,避免单点网络故障造成的系统宕机;
      
      在数据源接入上,通过建立双重冗余数据获取机制,当主数据源请求通路受阻时,数据自动切换至从数据源请求通路,系统对双数据源之间同时进行准确性校验;
      
      2)在使用模式控制上,平台采用多安全模式方式,设计AI自动接管、AI+人工确认、停止下发三种模式,同时对平台操作人员权限设置有定时无操作退出机制,避免系统长期处于可操控风险中,若15分钟内系统无人员操作,则自动回到登出状态,避免不熟悉的操作人员误操作;
      
      3)在参数安全范围上,在动环参数运行告警范围外设置有AI控制保护参数,避免模型生成的超过安全范围参数下发至动环系统。
      
      4)使用以上平台对12间数据机房进行经过30天以上的测试后发现,空调集群AI优化技术精准地平衡了机房环境安全性和制冷系统的能耗,测试期内未出现温度超温警告,机房空调能耗下降25%以上。相当于为数据机房增加了“全天调度数字员工”,使用简单,效果显著,详见图6所示。
      
      四、结论
      
      本文介绍的系统技术深度融合了机房控制特点及AI算法,闭环智能控制,实现能源系统“自动驾驶”。同时机房末端优化做到多参数复合调整,能很好地平衡机房节能需求及温度安全需求。本技术具有完善的安全保障,配置有通讯异常、数据异常、模型异常、控制指令异常等多种异常情况下的告警及应对策略,全方位确保AI优化指令的安全性。
      
      作者简介
      
      李曼洁,美国马里兰大学硕士,浙江大学上海高等研究院助理研究员,从事制冷系统控制优化算法研究十年以上。
      
      季博威,南京林业大学控制工程硕士研究生,从事微电网、自动驾驶控制算法研究。
      
      黄冬梅,博士,CDCC数据中心工作组专家技术组专家,《数智元》杂志编委。擅长数据中心数字孪生、CFD及AI节能优化等方面技术。2009年创立北京瑞思博创科技有限公司,担任总经理。在国内率先提出数据中心数字孪生技术,带领团队开展相关业务,主编《数据中心数字孪生技术规范》,《数据中心手册》中文版,《数据中心CFD技术白皮书》,《数据中心气流组织规范》等书籍或标准,参编《数据中心节能技术与应用》及《中国数据中心冷却技术年度发展研究报告》2022,2023,2024版等。获得数据中心科技成果奖一等奖2项,二等奖2项。
      
      编辑:Harris
      
      

  •