全球智慧全链驱动加速兆瓦级AI数据中心进程
- 2025/10/20 8:31:01 作者:维谛技术大中华区市场营销与产品应用部顾华 来源:《数智元》杂志
-
当前,AI技术正加速渗透至生活与社会各领域,从大语言模型向智创自动驾驶、智能机器人、其影响力持续扩大。在此背景下,AI算力已成为全球最重要的战略博弈资源,人工智能正以全新标准重塑全球秩序。
一、AI算力成全球战略博弈核心,中美主导行业发展
当前,AI技术正加速渗透至生活与社会各领域,从大语言模型向智创自动驾驶、智能机器人、其影响力持续扩大。在此背景下,AI算力已成为全球最重要的战略博弈资源,人工智能正以全新标准重塑全球秩序。
据牛津大学最新研究报告显示,全球已建成132座AI工厂,分布于32个国家,其中95%以上采用英伟达芯片。尽管这些AI工厂地理位置分散,但超90%由中美两国公司主导运营——美国占据近2/3份额,中国接近1/3。在竞争格局中,美国凭借科技优势与出口管制维持领先,中国则通过政策扶持与资金投入,推动AI数据中心在本土及海外的建设以追赶差距。虽国内数据中心建设短期受窗口指导文件影响,但中长期发展趋势始终明确。
二、GPU迭代推动功率密度升级,中外发展节奏存差异
由于GPU并行计算架构效率远超CPU,其已成为AI模型训练与推理的核心硬件。自A100起,GPU迭代速度加快,芯片热设计功耗从400W飙升至1200W以上,传统风冷技术逐渐逼近物理极限,液冷凭借热点散热、高能效、低噪音的优势快速普及。随着更多GPU与CPU装入板卡和服务器,机架功率密度大幅提升。今年以来,GB200与GB300稳定出货,132kW单机柜功率密度已成为美国、欧洲及东南亚地区数据中心建设的主流配置。未来三年,在Rubin、Rubin Ultra及Feynman架构支撑下,AI数据中心将加速迈入MW(兆瓦)时代,这在以往难以想象。
受芯片禁令影响,国内芯片算力与功率密度存在一定差距。过去一年,国内AI算力建设的功率密度普遍在2040kW,节奏相对滞后,但长期发展方向与全球一致。考虑到基础设施建设运营生命周期通常超过10年,行业需以更长远视角规划布局。
三、AI算力跃升倒逼基础设施转型,四大核心需求凸显
为保障核心芯片正常运行,基础设施需要实现电网到芯片的稳定性供电,并将芯片产生的热量供速转移至室外。随着芯片需求与功率密度增加,供电与制冷基础设施规模较以往提升至少5倍,同时对基础设施转型提出四大新要求:
1)高密度负载适应性:负载端供电电流从几十安培增至上千安培,应用端逐步从电缆过渡到小母线,传统风冷面临瓶颈,需采用液冷或风液融合技术。
2)能源效率与供应优化:数据中心规模扩张使电力消耗备受关注,需引入更多新能源,且PUE能效指标要求更严格;供电与制冷架构持续优化能源转换效率,推动供电架构解耦,呈现直流化、高压化趋势。
3)高弹性与快速部署:芯片与服务器迭代加速,建设周期大幅压缩,尤其在液冷及管路增加后,需通过标准预制单元实现规模扩张。
4)高可靠性保障:GPU并行计算特性导致AI训练与推理阶段负载从0到满载周期性快速变化,1ms瞬时过载峰值达190%、50ms过载超150%,传统方案易面临有机风险,热负荷集中情况下,供液短暂中断会导致温度骤升,管路供液洁净度与工程质量直接影响液冷可靠性,"液冷即服务"概念应运而生。
四、供电架构:从解耦到升级,效率与技术持续突破
随着机柜密度提升与集群规模扩大,供电架构需适配新的能源结构,包括引入新能源与绿电、结合储能与直流微网,同时进一步解耦从电网到芯片的链路架构以提升电能转换效率。
十年前,行业已关注到服务器内置电源的效率瓶颈:尽管UPS/高压直流转换效率达97%以上,但机柜侧服务器电源220V交流输入、多组直流输出给主板芯片的效率仅90%出头,外市电到芯片供电链路整体效率约85%,提升空间显著,却因产业链结构惯性缺乏解耦动力。
如今,AI服务器功率大幅提升推动服务器电源容量同步增长,电源空间需求扩大,促使其从服务器内部独立,形成PowerShelf机架电源模组。围绕该模组,前端电源系统与电压制式随之调整,推动供电架构解耦升级,呈现直流化、高压化趋势。在新架构下,整体链路转换效率较以往提升4%以上,部署可用性与效率同步提高,且这一趋势与机架功率密度提升节奏紧密相关,将经历直流±400V到800V的过渡阶段。
长远来看,SST固态变压器可通过电力电子技术实现10kV到800V直接转换,相比传统电力变压器与低压配电系统,具有效率更高、尺寸占地更小、能更灵活接入新能源系统的优势,但需突破稳定性与成本难题,预计其成熟应用至少需要3年以上培育期。
五、制冷技术:从风冷到风液融合,创新方案应对高密挑战
随着芯片热设计功耗与机柜密度提升,冷源逐渐向热负荷靠近,从远端房间级延伸至近端列间、背板、风墙。尽管风冷热处理极限可达45kW以上,但风扇功耗与高噪音问题凸显,液冷凭借制冷剂和变优势提升热处理能力,开始成为重要选择。
从应用场景看,浸没液冷面临成本、维护与可靠性问题,冷板在相当长时间内仍具备绝对优势。今年以来,液冷服务器生态逐步成熟,制冷技术从风冷向风液混合冷却转变。过去大规模横部署的冷冻水技术,曾一度被间接蒸发与预制氟泵替代;而当前芯片热设计功耗提高,对液冷一次侧进水温度要求降低,仅靠室外冷塔自然冷却提供的30℃以上冷却水已无法满足需求,需机械制冷系统提供更低温度的冷冻水,这使得更高能效的分布式磁悬浮冷水系统关注度显著提升,近一年其在海外的应用比例大幅增加。
同时,风液水技术的应用也给部署与运维带来挑战。为简化应用,行业不断探索创新技术,推出氟液CDU、风液一体机、高温冷机等解决方案。
六、维谛技术:全链布局+生态合作,构建AI数据中心核心能力
作为数据中心基础设施厂商,维谛技术围绕未来AI应用变化提前布局,在原有平台基础上通过并购持续扩充解决方案产品组合,收购E&I小母线以支持末端大电流供电,收购Cooltera液冷,成为英伟达战略级合作伙伴,收购BSE磁悬浮冷水主机,成为业内唯一具备风液水全平台能力的厂商;上个月刚完成对GreatLakes与Waylay的收购,分别补充定制化机架与预防性维护数据分析能力。
通过与英伟达在芯片侧的技术共研,维谛清晰把握未来技术路线图,实现前瞻性准备;同时,通过与全球及中国头部客户合作开发,深入了解最新应用场景与需求,联合推出风液一体、风液融合高温冷机、2300kW及4000kWCDU、MW级电力模组,以及配合Meta、英伟达的400V/800V高压直流方案,构建起从电网到芯片的完整电链,以及从芯片到室外散热的风液水全冷链方案。
七、参考设计:五大原则为纲,标准化方案赋能行业
为更好地服务行业,维谛技术通过场景标准化,围绕核心芯片推出近50份经测试验证的参考设计方案,所有方案均遵循五大设计原则,是实战经验的总结:
1)冷电协同设计:同步规划供电与散热方案,匹配AI集群需求,优化基础设施整体效率;
2)多要素平衡:兼顾TCO(总拥有成本)、冗余可用性与故障范围,实现综合效益最优;
3)多级缓冲应对波动:通过系统级控制,设计电力、散热多级缓冲区,应对AI负载突发波动;
4)优化风液混合比例:明确最佳风液混合比例,因两者相互影响决定散热能力上限,对未来可扩展性至关重要;
5)弹性适配未来:针对机架功率密度快速提升至1MW的趋势,采用分布式、模组化容量设计,保障长期适配性。
目前,这些参考设计方案已在维谛官网开放查询,可供行业伙伴浏览下载与深度交流。
八、全球实践:赋能多场景AI算力中心,预制化方案加速规模化
依托参考设计与产品方案能力,维谛技术参与的AI算力中心已覆盖全球多区域,包括美国“星际之门“、欧洲主权数据中心、国内互联网企业及地方政府推动的智算项目,以及东南亚出海项目。
在维谛与英伟达、iGenius联合推动的最新项目中,计算单元突破单一芯片范畴,升级为系统级与AI工厂级方案。该项目采用1.4MWIT模块,单个Pod包含20台GB200机柜,通过完全预制化的基础设施方案(涵盖中压直供、电力模组、集成冷站、液冷模块、综合管路、维护模块),结合综合管理平台实现全面监控,成功验证了AI工厂快速规模化扩张的可行性。
九、展望未来:迈向兆瓦级高密时代,维谛携手生态共促发展
挑战,需提前在功率链重构与风液水融合领域做好准备。维谛技术将凭借全球视野、全方案平台及全生命周期服务构建的360AI能力,携手设计院及生态伙伴,共同推动AI数据中心进程加速,为行业发展注入强劲动力。
作者简介

顾华,2007年加入维谛技术有限公司(原艾默生网络能源有限公司)工作至今,历经研发和多类产品技术应用岗位角色,现担任市场营销和产品应用部副总裁职务,负责公司市场营销战略管理,带领团队开展行业研究和前沿调研,参与制定公司中长期战略规划和关键业务策略,跟进AI数据中心的技术趋势并持续推出具有竞争力的数据中心基础解决方案。
编辑:Harris
当前,AI技术正加速渗透至生活与社会各领域,从大语言模型向智创自动驾驶、智能机器人、其影响力持续扩大。在此背景下,AI算力已成为全球最重要的战略博弈资源,人工智能正以全新标准重塑全球秩序。
