一、背景
在人工智能(AI)领域,数据、算法以及智算设备构成了其核心要素。以生成式人工智能(AIGC)的典型代表GPT为例,其实现快速迭代离不开万卡算力平台以及支撑该平台运行的数十乃至数百MW级智算中心设施,强大的算力保障使得AI模型得以高效训练与运行。然而,DeepSeek通过采用创新模型和数据处理方式,仅使用GPT4.0几十分之一的算力设备,便实现了AI的低成本发展模式,降低了行业准入门槛,吸引更多参与者进入AI领域。由此,智算基础设施的重量化还是轻量化路线、计算与推理一体还是计算与推理分离、选址布局、网络架构设计都是全新的课题。而如基础设施的关键问题,如高密度与低密度机柜配比、风冷与液冷兼容系统、算力机架网络距离、配电与制冷对应算力机架的面积配比等,都需要我们去寻找探索答案。
二、体量的轻重对比
典型超大模型如GPT-4/5、Claude-3、Grok3等,其背后所依托的智算中心规模极为庞大。根据马斯克公布的视频资料显示,承载Grok3的XAI孟菲斯数据中心一期部署了10万张GPU,后进一步扩展至20万张,容量超过200MW(以英伟达H100单卡700W功率进行计算,仅GPU部分的功率就已超过140MW)。未来,XAI后续计划参照百万张GPU卡智算平台进行大模型部署,容量将达到GW级别。另有公开资料表明,阿里张北计算集群算力达12EFlops,部署的算力服务器数量超过30万台,容量超过300MW。2025年,阿里宣布启动规模高达3800亿元的智算投资计划,在其规划中,单一园区的容量可达500MW,区域算力集群部署容量更是将超过GW,充分展现出大型智算企业在智算基础设施建设上的巨大投入与宏伟规划。
反观DeepSeek的发展路径,2021年,在当时美国对华芯片出口管制尚未生效之前,DeepSeek母公司幻方量化基金便以前瞻性的战略眼光,采购了1万张英伟达A100GPU。到了2024年,DeepSeek在训练大模型时,使用2048张英伟达H800GPU组成的集群,仅耗时55天完成模型训练。在受到芯片管制后,幻方量化基金依然通过正规渠道积极采购系列合规的GPU,据行业预估,其采购租用数量约3万张(非官方确认)。这些GPU设备主要部署在杭州总部以及内蒙古乌兰察布等“西算中心”,根据推断,其单体规模处于10-30MW区间,与智算巨头体量差异明显。
智算巨头与行业新锐的差异,是由于业务需求量和发展阶段各不相同。DeepSeek可以优化训练阶段智算基础设施降低成本,但是随着业务发展,DeepSeek也面临着访问排队、计算资源不足等问题。算力的三要素随着时间和业务增加的变化,数据会增长、算力硬件能力提升以及算法优化螺旋式上升,轻量化只是发展阶段的一个局部优化或者技术高光阶段。
三、智算中心架构规划
对于不同体量和业务类型以及发展阶段不同的智算用户,其在物理选址、模型组网架构以及技术路线选择等方面也呈现出诸多不同特点。以典型的互联网公司和云计算公司为例,它们通常延续云计算时代的集中资源选址逻辑,并针对大模型的特殊需求进行适度调整。此类企业的数据体量庞大、业务类型丰富多样,为实现高效运营,倾向于采用大规模、低成本且可复用的架构设计思路。
而像DeepSeek这样的新锐公司,在资源相对有限的情况下,致力于通过更低的成本方案和创新的架构模型实现弯道超车,而更小的智算企业甚至会去租用大型智算企业的某些智算资源,助长智算巨头成长放大。
1.技术架构选择
在电力架构选择方面,百度、腾讯、阿里等企业选择高压直流供电架构,该架构在电力传输效率和稳定性方面具有一定优势;字节、美团等企业则采用交流UPS电力架构,这种架构在应对IT设备通用性和高功率机柜支持性方面表现良好。在散热技术路线上,阿里和字节采取浸没液冷和板式液冷共同发展的策略,配合风冷液冷兼容方案,凭借通用灵活的技术方案组合,其在全球范围内进行智算中心布局时拥有更多的选择空间;而其他国内大型互联网公司则以风冷散热方式为主,部分区域采用液冷技术,其智算中心布局呈现出偏重华北地区、华东地区次之、华南地区相对较少的特点,海外一般选择本地运营方案为主,较少坚持自有定制方案。
2.不同客户模式
针对智算数据中心的区域选址和架构分级设计,不同规模和类型的用户呈现出不同的模式。
1)超级智算客户
采用三级布局模式,构建多区域(覆盖全国甚至全球范围)的超大规模基地(容量达GW级别);在单一区域内,由2-3个园区组合形成一个计算集群(容量为数百MW到GW级别);单一园区的计算集群可混合多种业务集群(容量为几十MW到数百MW级别);单个机房计算集群也可与其他业务集群混合(容量为十MW到数百MW级别)。在基础设施架构设计上,以自有的IT架构定制基础设施方案,明确功率密度,选择高效电力系统,根据区域特点采用AHU(空气处理机组)、自然冷风墙或者风冷液冷兼容系统,部署弹性比例的液冷系统,以满足大规模高密度算力运行的需求,对于运营管理系统有非常高的要求,全面的掌控技术标准和架构设计乃至运营体系。
2)新锐及大型智算用户
同样遵循三级布局模式,但相对超级智算客户的布局模式有所弱化。这类规划主要以一个或两个同城园区组成的区域基地(容量为数百MW级别)为主,分散在不同区域的机房(容量为数十MW级别);或者采用与超级智算客户类似的模式,在单一区域内由2-3个园区组合成计算集群(容量为数百MW到GW级别),单一园区和单机房的规划设计与超级智算客户模式相似(容量分别为几十MW到百MW、MW到数十MW级别)。架构设计参考基础设施通用的技术标准,定制技术标准偏少,对于功率密度和配电末端以及制冷末端要求比较多,物理安防要求较高,运营管理直接参与度低。
3)中型智算客户
大多采用二级布局模式,通过组合多个城市区域的机房,可以推理和智算分离布局,或者部分采用推算一体布局(容量范围在MW-数十MW级别);也有部分中型智算客户选择租用公有云计算公司的算力服务,并结合本地化研发测试集群开展业务。一般对于基础设施部分要求比较简单,遵循行业常规标准或惯例。
4)中小型智算用户
通常仅具备一级布局模式,多以MW级别租用大型或超大型算力资源,或者在相对边缘的区域自建规模较小的智算研发平台,以满足自身业务需求。
四、智算中心以弹性网络架构为核心
1.智算网络要求
与传统数据中心以“地、楼、风、火、水、电”为要素的架构设计理念不同,智算中心的架构设计以算力网络为关键要素,并有机结合楼、电、水等基础设施。智算大模型对网络性能有着极为严苛的要求,需要具备低时延、大带宽、高稳定以及大规模且便于运维等特性,具体表现如下。
1)容量规模
大型智算网络能够支持万卡乃至十万卡级GPU或CPU服务器接入,同时具备千万级IPv6地址的管理能力,以满足大规模算力设备的网络连接和地址分配需求。
2)网络吞吐
当前主流采用100G接入、400G互联的网络配置,确保数据能够在设备之间快速传输,满足智算模型对数据吞吐量的要求。
3)时延
在POD(集群模组)内部实现微秒级时延,在集群内达到亚毫秒级时延。为有效减少GPU互联之间的传输时间差,保障计算的稳定性和数据传输的均衡性,网络POD光缆/或者GPU直连集群连接距离优先选择50m以内,其次为100m。
4)可靠性
要求达到99.99%的服务级别协议(SLA),确保在出现故障时能够在分钟级时间内实现故障止损,最大限度降低故障对智算业务的影响。
5)可扩展性
具备良好的弹性扩展能力,例如典型的十万台级集群可对应56个网络POD,能够根据业务发展需求灵活调整网络规模。
2.网络方案选择
当前业界较为常用的智算集群网络方案主要有英伟达体系的Infini Band(IB)方案和互联网公司自研的RDMAover Converged Ethernet(RoCE)方案,详见图2所示。RoCE方案相比IB方案具有更高的开放性、更好的兼容性、更低的成本以及更便捷的运维特点,是各大互联网厂商的优先选择。
然而,对于中小规模集群、需要快速建设的集群或者在网络架构运营能力相对不足的情况下,采用英伟达的推荐的IB方案能够显著降低项目落地难度,更有利于快速搭建稳定的智算网络环境。
智算网络架构通常由核心层、汇聚层、接入层三层模块化设备构成。其中,汇聚层和接入层以POD为单位进行模块化弹性建设,这种设计能够更好地适配不同规模的集群,实现对千卡、万卡乃至十万卡集群的兼容。以典型的十万卡RoCE网络架构为例,该架构在横向上可划分为8个平面,每个平面均可独立运行。即使任意4个平面出现故障,整个网络集群仍能保持正常运行,充分保障了网络的可靠性。
在实际的智算中心园区规划设计过程中,对于单一大体量集中园区,既可以选择万卡乃至十万卡级别的网络架构,以满足大规模算力集群集中运行的需求;在网络带宽和传输速率允许的条件下,也可采用跨多个数据中心进行集群调度的模式,实现算力资源的灵活分配和高效利用。大型智算中心由于其算力设备架构的一致性,通常以高密度算力机柜为主,并搭配少量低密度功率机柜用于存储和其他用途。在供电架构和制冷架构方面,尽量采用统一设计,以提高运营效率和管理便利性。在风冷与液冷比例尚未确定的情况下,一般会考虑采用风冷液冷兼容方案,常见的风冷与液冷比例范围在5:5到5:9之间,并对风冷系统进行超配设计。这种设计方式既能追求性价比和能效,又能兼顾部分区域的可扩展性和设备替代需求,同时有助于加快项目交付速度。
对于采用轻量化模型或中小规模算推一体的智算园区,其网络架构设计需要根据不同的客户需求和应用场景进行定制化设计,差别较大。此类智算园区往往呈现出大型智算中心散户化共存的局面,或者仅需建设一个中小型智算中心单体。在架构方案选择上,通常会优先考虑兼容性更强的设计,例如采用传统的交流UPS配电架构,选择常见的风冷系统,如冷冻水系统、AHU、盘管风墙方案等,并预留一定的改造空间,以便后续能够兼容液冷技术,满足未来业务发展和技术升级的需求。
五、智算中心单体重量轻量化弹性布局设计
智算中心致力于追求低延时的网络架构设计,力求在有限的平面空间内实现万卡级别的架构部署。这种设计理念导致单位空间内的机架功率密度大幅提升,智算中心单体楼的功率密度从传统的5-15MW提升至30-100MW。同时,在园区建设方面,逐渐从以往多个标准模块化建筑的模式转变为更大规模的少量单体建筑设计趋势。从图3中可以直观地看到,单体建筑在建筑面积和建筑高度上均有所扩展,这一变化旨在适应智算中心高密度、更集中的布局架构需求。通过建设大体量单体智算建筑,并预留一定的空间,能够实现向下兼容不同规模的算力设备和业务需求。这是因为在智算中心建设成本构成中,建筑成本相对较低,通过优化建筑设计来提升空间利用率和架构适应性具有较高的可行性和经济性。
在智算中心的具体规划过程中,前期阶段需要明确建筑规划方案。在单体建筑面积调整幅度较小的情况下,可通过提升智算设备的单机柜功率密度,将原本用于智算设备的多余房间面积或辅助区域面积,合理调整为电力模块和制冷模块区域,以满足智算设备对电力供应和散热的更高要求。当智算设备从风冷转为液冷时,在架构设计层面需要充分考虑风冷和液冷的兼容布局模式。具体而言,需要预留出液冷系统的安装位置,并适当提升建筑层高,以便在同一个IT房间内同时部署风冷和液冷设备。例如,在原有的风墙弥漫送风结合热回风吊顶的风冷气流组织模式基础上,增加架空地板,在架空地板下方部署液冷管道和设备,同时在空调间内增设液冷CDU(冷却液分配单元)等液冷转换设备。通过这种设计方式,能够灵活适配智算中心内风冷液冷设备部署比例在一定范围内的调整,确保智算中心在不同设备配置情况下均能稳定运行。
另外,建筑还需要考虑充足的室内室外空间,尤其是对于风冷AHU的屋面部署或者冷却塔的增加的部署,屋面空间是挑战,详见图4所示。
当未来智算中心的业务需求发生变化,计算任务转变为推理任务,或者需要兼容其他业务类型时,可能会导致功率密度降低。此时,需要对功能区域进行适度调整,例如相应减少电力模块和冷却模块的布置,增加智算单元模块的数量。为满足未来业务发展和设备扩容的需求,在建筑单体内需要预留足够的空间,甚至在园区规划中预留建筑楼栋,以便为智算设备机架的扩容提供空间保障。这充分表明,在未来的智算中心设计中,保留弹性规划设计具有至关重要的意义,能够有效应对业务需求的动态变化,提升智算中心的适应性和可持续发展能力。
六、总结
以大模型为代表的智算需求,促使智算中心的容量和单体规模急剧增长,大规模、低成本、高效率且可迭代的架构理念助力大型智算设施架构设计。DeepSeek轻量化模型的成功实践,也会驱动智算基础设施量入为出、分期投资扩展,弹性扩容。随着计算的突破,推理业务将迎来快速增长,再反哺智算和数据增长,算力定律持续生效,单位算力成本必将持续降低。未来,智算中心的竞争核心仍将聚焦于规模、效率和成本方面,结合弹性兼容设计,以适应不断变化的业务需求和技术发展趋势。
作者简介
韩玉,CDCC专家委员和制冷学会数据中心专业委员,“2018年数据中心科技成果奖青年科技人才奖”获奖者,有多项发明专利,参编多本行业书籍和数据中心行业白皮书,数据中心行业20年行业经验,多个项目获得行业奖项,如千岛湖水冷却数据中心、阿里张北数据中心、张家口云储数据中心等。
牛国宇,字节跳动设计经理,十多年数据中心从业经历,曾参与国内多个超大规模数据中心规划、设计、建设管理工作。
编辑:Harris