咨询QQ:
      杂志订阅

      编辑

      网管

      培训班

      市场部

      发行部

电话服务:
 010-82024981
设为首页 | 收藏本页
破解两难困局:数据中心安全与性能双升级
  • 对于AI数据中心而言——在这一领域,利害关系最为重大,性能约束也最为严苛——安全性与性能已不再是一场零和博弈。
  • 每一个数据中心网络安全团队都面临着同一个看似无解的难题:基于主机的安全代理会消耗高性能计算所必需的CPU周期。多年来,业界一直在试图平衡这种权衡关系:实施的安全措施越多,性能受到的损耗就越大;反之,越是致力于保障性能,出现安全盲点的风险也就越高。
      
      若要寻找此类安全盲点的具体案例,虚拟机(VM)与其物理宿主机之间的鸿沟便是最好的佐证。2025年3月,博通(Broadcom)修补了一系列VMwareESXi零日漏洞,这些漏洞能够彻底突破虚拟机的沙箱隔离。而在2023年,一场名为“ESXiArgs”的网络攻击行动据估算在全球范围内影响了约3800台服务器。
      
      在这两起事件中,仅仅一次成功的入侵,就导致数十台虚拟机同时陷入瘫痪或遭到加密。由于攻击行为发生在虚拟机管理程序(Hypervisor)层面,基于主机的安全代理在此类场景下根本无能为力。
      
      解决之道并非简单的优化,而是需要对架构进行彻底的重构——将安全防护功能完全从宿主机中剥离出来。部署在每台服务器上的数据处理单元(DPU)正是为此提供了所需的关键能力。
      
      将安全工作负载交由DPU而非CPU来执行,能够彻底释放宿主机的CPU和GPU资源,使其得以专注于执行其设计初衷所应承担的计算任务。更具优势的是,由于DPU独立于宿主机的操作系统运行,因此对于攻击者而言,它是完全不可见且无法触及的。
      
      最终实现的成果是:一种具备防篡改特性的安全防护体系,能够在网络线速下全速执行——且对系统性能不产生任何负面影响。
      
      以现代速度演变的遗留风险
      
      数据中心历来都是安全防护最具挑战性的环境之一。物理服务器承载着虚拟机管理器(Hypervisor),虚拟机管理器承载着虚拟机(VM),而虚拟机又承载着容器。每一层都增加了抽象层级,而每一个抽象层级都会引入安全盲点——在这些盲点中,资产处于无人管理的状态,安全漏洞也往往无法被及时发现。
      
      错误的配置会随着时间的推移而不断累积。新的虚拟机往往直接复制自过时的模板;防火墙规则中堆积了大量例外策略,却无人进行审计;某些服务器在相关项目早已完结之后依然持续运行,因为没人愿意冒着引发服务中断的风险去将其下线。
      
      在这样的环境中,传统的边界安全防护往往收效甚微。防火墙及各类网络安全设备主要负责监控“南北向”流量(即数据进出数据中心时的流量)。然而,数据中心内绝大多数的流量实际上属于“东西向”流量(即虚拟机之间发生的横向通信)。
      
      一旦攻击者成功攻陷了数据中心内的某一个单一实例,传统的边界防御体系便彻底失去了对后续攻击行为的可见性。正是在这一阶段,攻击者的“驻留时间”开始不断延长,权限提升攻击也随之发生——而这一切,早已超出了传统网络边界防御所能覆盖的范围。
      
      AI数据中心不仅继承了上述所有的安全风险,甚至还以指数级的速度加速了这些风险的演变。许多瞬时性的网络流可能仅存在数小时(甚至短短数分钟)便彻底消失;虚拟机往往仅为执行某项特定任务而被临时创建,任务完成后即刻销毁;容器则在不同的计算节点之间进行动态编排,资源分配也在实时进行调整。这些“即时生成”的资产出现与消失的速度之快,已远非任何人工操作或周期性扫描所能企及。
      
      试想一下:一个单一的GPU集群往往代表着数百万美元的硬件资产,而效率每提升一个百分点,都能直接转化为实实在在的竞争优势。在这样的背景下,若依然沿用在主机上部署安全代理(Agent)的传统做法,显然是极不合理的。遗憾的是,这也意味着部分数据中心运营者正悄然关闭其最核心计算节点上的安全防护功能,转而寄希望于外部边界防线能够坚守得住。这种做法,无论如何都是站不住脚的。
      
      构建美好明天的蓝图
      
      将安全防护从基于CPU的代理模式转向基于DPU的安全架构,通过将整个安全堆栈迁移至专用芯片上,彻底消除了“安全与生产力”之间相互权衡取舍的难题。DPU在每台服务器中充当嵌入式传感器,能够持续传输遥测数据并监控网络流量,且对宿主系统(Host)的运行性能不产生任何影响。
      
      这对性能带来的提升是显著的。基于DPU的持续实时监控机制,其运行速度远超传统的基于CPU的方案——而速度优势仅仅是其优势的一半。DPU与宿主系统之间的物理隔离,使得在硬件层面实现“零信任”安全防护成为可能。
      
      DPU位于宿主系统与网络之间,对两者均采取“零信任”策略。每一个数据包、每一项访问请求以及每一个进程,都必须接受严格的检测与策略执行。即使宿主操作系统的安全性不幸遭到破坏,得益于DPU的硬件级隔离特性,安全控制权依然能够牢牢掌握在手中。
      
      在可见性方面,基于DPU的架构能够实现跨物理与虚拟基础设施的持续监控,并全面覆盖“东西向”(内部)流量与“南北向”(外部)流量。通过在终端节点直接执行深度数据包检测,该架构彻底消除了传统方案中因流量需绕行至外部安全设备而产生的性能瓶颈。
      
      与此同时,隐私保护机制也被深度集成到了架构设计之中。系统仅从内核级数据结构及系统元数据中提取信息,绝不触及用户数据或应用层内容。最终实现的效果是:在确保全面安全可见性的同时,绝不泄露任何敏感数据。
      
      兼顾安全与性能
      
      在过去二十年间,数据中心的安全防护始终受困于一道看似无解的难题:究竟是选择“安全”还是选择“生产力”?而基于DPU的安全架构,彻底打破了这一两难局面,实现了二者的完美平衡。对于人工智能(AI)数据中心而言——在这一领域,安全风险尤为严峻,对性能的要求也最为苛刻——安全与性能之间的博弈将不再是一场非此即彼的“零和游戏”。
      
      编辑:Harris
      
      

  •