咨询QQ:
      杂志订阅

      编辑

      网管

      培训班

      市场部

      发行部

电话服务:
 010-82024981
设为首页 | 收藏本页
血的教训!韩国大田数据中心火灾再次为行业安全敲响警钟
  • 综合路透社、IDC圈等多家媒体分析报道,韩国国家信息资源管理院(简称"国情院")大田数据中心2025年9月26日20时左右发生火灾。起因是不间断电源(UPS)系统中的锂电池在搬迁准备时意外起火.

    合路透社、IDC圈等多家媒体分析报道,韩国国家信息资源管理院(简称"国情院")大田数据中心2025年9月26日20时左右发生火灾。起因是不间断电源(UPS)系统中的锂电池在搬迁准备时意外起火:断电约40分钟后,电池组进出火花,引发爆炸,火势迅速蔓延。因数据中心内存放大量锂电池,因此火焰难以扑灭,由于担心大量水流可能损坏国家资源数据,火灾现场使用了二氧化碳等气体灭火系统,因此影响了灭火速度。火灾持续近22小时,期间一度复燃,最终于次日下午扑灭。事故动用242名消防员和67辆消防车,烧毁384个电池组,有一人面部和手臂一级烧伤。
      
      韩国国家信息资源管理院位于首尔以南约140公里处的大田市,被视为韩国国家计算机网络中枢。这一机构9月26日晚间发生的火灾,导致647个政府业务系统停止运行,其中96个系统被毁,70多项政府服务中断,包括公务员文档系统"Omara"、119紧急调度、邮政金融服务、政府24门户等。
      
      据韩国行政安全部当地时间9月27日通报,由于国家情报资源管理院大田总院的电算室26日晚发生火灾,导致647个政府业务系统停止运行,行政安全部将危机警报水平从"警戒"级提升至“严重“级。
      
      行政安全部方面表示,受火灾影响,电算室的恒温恒湿器无法正常启动。为了保护信息系统,防止服务器急剧加热,行政安全部方面切断了所有服务器的电源,中断了服务器的运行。目前,有关部门正在对恒温恒湿器进行修复工作,之后将重新启动服务器,先从邮政金融等主要政府服务开始依次恢复业务。
      
      韩国国家信息管理局2月7日在主持中央灾难安全对策本部会议时表示,由于国家信息系统出现故障,很多相关业务无法进行,给国民的日常生活带来不便,对此深表歉意。他表示,政府将设立以行政安全部为中心的危机状况应对本部,在火灾完全结束后迅速制定重建计划,并迅速采取措施,努力恢复相关服务。
      
      韩国行政安全部10月1日说,韩国政府文件存储系统毁于国家信息资源管理院的火灾,致使约75万名公务员最近约7年的相关工作文件全部丢失。
      
      韩国行政安全部说,政府文件存储系统是火灾中被毁的系统之一。2018年以来,韩国政府建议公务员将所有与工作相关的文件保存在该系统,而不是个人使用的电脑里。
      
      由于该系统没有进行外部备份,其中存储的文件已全部丢失,预计依赖该系统的相关政府机构业务将中断。
      
      韩国警方10月1日逮捕4人,他们涉嫌失职。
      
      恢复工作进展缓慢,至10月9日仅27%的系统恢复,优先级1级系统恢复率62%。更令人痛心的是,一名负责网络恢复的公职人员因巨大压力自杀,凸显事故的深远社会影响。
      
      一、从基础设施技术的角度看
      
      这起事故暴露了该数据中心在电池管理与基础设施设计上的三大致命疏漏,导致火势失控、后果加剧。
      
      首先,电池选型错误。事故涉及袋式三元(NCM)锂电池,这种电池采用薄膜封装,成本低但抗冲击性差,一旦发生热失控,电解液易燃烧并引发连锁反应。行业标准推荐数据中心使用核柱形电池,其金属外壳配有排气阀和熔断器,能有效遏制火势。近年来,核柱形电池在电动车和储能系统中的占比已从2021年的59%升至2023年的77%,而袋式电池逐渐被淘汰。
      
      其次,电池超期服役。涉事电池于20122013年生产,2014年安装,已超出LG Energy Solution的10年质保期。2024年6月安全检查已建议更换,但未执行,仅确认"无明显异常"。超期电池电解液易泄漏,残余电量(事故时约80%)在断电后仍可能引发火花。国际上多项行业规范要求搬迁前将电池电量放至30%以下,耗时24小时以防爆炸。本次搬迁忽视了这一步骤,导致火花引爆。
      
      再次,电池与服务器未物理隔离。电池组与服务器仅相距60厘米,服务器间距也仅1.2米,无防火屏障,违反行业规范。韩国2024年检查88个大型数据中心,发现73个存在265项违规,其中8个未隔离电池与服务器。韩国相关法规要求,大于20kWh的电池需与电气设备保持至少90厘米距离并加装防火墙,还要配备远程断电和快速排气系统。
      
      缺乏隔离使火势迅速波及服务器,致消防只能用气体抑制剂而非水,延长了扑救时间。
      
      二、从产业影响的角度看
      
      基础设施技术之外的因素,放大了事故的影响。
      
      首先,类似悲剧并非首次,但未真正吸取教训。2022年10月15日,SKC&C板桥数据中心地下三层电气室起火,5个电池机架全毁,导致3.2万个服务器瘫痪,KakaoTalk、NAVER等国民级服务中断一天,至16日下午才逐步恢复,影响韩国5200万人口的日常生活。调查指向电池室电气故障,但具体原因至今未明。事故引发总统尹锡悦和科技部长李宗昊公开道歉,Kakao联席CEO南宫煜引咎辞职。政府成立网络安全工作组,承诺加强监管。然而,三年后类似事故重演,暴露出监管执行的严重缺失。
      
      其次,没有有效灾备,未建立业务连续性计划。据称,韩国政府虽计划"activeactive"双中心实时同步,但2025年灾备预算仅30亿韩元(削减61%)未能实现地理冗余。现场GDrive云存储(涉及191,000公务员数据)全部毁坏,恢复依赖人工重建。这使得服务中断时间延长,影响数千万用户,公职人员压力剧增。
      
      三、从数字化转型的视角看
      
      随着数字化技术的深入应用,线上业务逐渐代替纸面线下业务,原生数字世界的逻辑,反过来影响真实世界,数据中心及其相关组织不得不在治理架构、组织文化、流程、资源、保障、应急与业务连续性等方面面临出改变。没有以业务流程运营为核心的组织变革支持,没有适应新生产力的生产关系,也就是只关注数字化,却不去思考转型,结果往往就是数字化趋势,管理混乱!
      
      四、近年来,数据中心火灾事故频发
      
      例如:2025年9月16日,印度贾坎德邦警察总部位于杜尔瓦的数据中心发生火灾,40台服务器、10台空调被烧毁,包括犯罪与刑事追踪等多个警察总部系统受到影响。
      
      2025年9月9日16点45分左右,位于尼泊尔加德满都中央商务园区四楼的一个数据中心所在的大楼起火,造成大面积服务中断。
      
      2025年7月7日晚间,埃及首都开罗市埃及电信公司的一座电信大楼发生火灾。截至7月8日下午,火灾已造成4人死亡、33人受伤,其中包括10名警察。事件导致大开罗地区的移动通信、互联网服务大面积中断、电子银行系统瘫痪……
      
      2025年5月22日上午,马斯克旗下的俄勒冈州希尔斯伯勒租赁的一座数据中心发生火灾。
      
      2024年9月10日,阿里新加坡机场由于锂电池爆炸导致的火灾,持续三十多个小时,仍未完全扑灭,此次事件不仅影响了阿里云的正常服务,还对托管在该机房的其他科技公司,如Lazada和字节跳动,造成了严重服务中断。
      
      2022年9月16日15时33分,位于湖南省长沙市芙蓉区荷花园街道东二环一段1032号的中国电信股份有限公司长沙分公司荷花园大厦第二长途电信枢纽楼发生火灾。此次火灾造成外墙过火面积约3600平方米,室内过火面积约400平方米,无人员伤亡,统计直接财产损失791.36万元。
      
      2022年4月12日早上,菲律宾马尼拉最高法院的一个数据中心起火。导致菲律宾最高法院的网站长时间瘫痪。据《马尼拉时报》报道,最高法院的首席公共信息官表示,UPS发生了爆炸。
      
      2021年12月,雅加达CyberOne数据中心发生火灾,两人丧命,根据该数据中心的服务器发生了爆炸。尚未披露任何关于火灾详细原因。
      
      2021年3月,属于OVHcloud的斯特拉斯堡数据中心在一起大火中被烧毁,360万个网站下线。据信造成那场火灾的主要原因是UPS系统,当地消防部门最近出具的一份报告指出了存在几处明显的不足,但至今也没有对火灾原因给出解释。
      
      2020年8月,澳洲电信Telstra位于英国首都伦敦的托管数据中心由于UPS故障引起火灾并引起危机。当地消防部门共调集了4辆消防车和25名消防员到场救援。
      
      五、防微杜渐警钟长鸣
      
      在我国,数据中心在国民经济中发挥越来越重要的关键作用,数据中心应对火灾进行更加全面、有效的管理,将目前以风险管控和应急预案为主的防火防灾管理,改变为着眼于为各行业,特别是对数据中心高度依赖的行业,提供连续稳定的支撑服务为目标的火灾场景下的服务连续性管理,数据中心应制定详尽的火灾场景下的服务连续性计划。做好以Reduce(减少)为目标,追求零风险、零灾难和零中断的风险管理与日常运营计划;做好满足快速灭火、减少伤亡、减少损失、业务连续、信息安全、环境影响等多方面目标要求的应急响应(Respond)和业务恢复计划,确保数据中心设施资源能够快速的恢复(Recover)到最低可接受的可用性水平,重续(Resume)数据中心服务;还要事先做好灭后重建(Restore)计划,确保数据中心有可用资源用于重建,尽快将数据中心服务水平返回(Return)到次前水平。同时我们还应当引导客户合理使用数据中心,引导客户采取措施,应用设备、多活等高可用技术方案,建立基于应用数字化技术的业务连续性计划,减少因数据中心服务中断给客户业务带来更大的损失。
      
      在数字经济大时代,数字化技术及其所依托的数字基础设施起着举足轻重的作用,数字化服务中断已经从过去给银行业带来灾难,演变到对各行业带来深远影响。要夯实数字基础设施,真正让数字技术给人民带来福祉,必须要有过硬的技术和技术设施,同时更要补足管理短板,让技术和技术设施在需要的时候真正能够发挥作用。
      
      作者简介
      
      赵勇祥,数据中心国家标准编制人,数字化转型国家标准编制人。数据中心、信息技术服务、安全与韧性等领域国家标准审查人。众多银行、政府组成部门、大学和科研院所的专家成员或特聘专家。毕业于西安交通大学,高级工程师。长期工作于中金数据等知名数据中心企业和联想集团MIS新数据中心等知名企业数据中心,在基础设施和信息技术领域都有丰富经验,深刻理解企业业务对数据中心的高度依赖以及对数据中心及其高效稳定运行的高度关注。具有三个条件:信息技术行业和数据中心领域的管理与应用实践经验,专注于数据中心服务能力成熟度研究,业务连续性管理在数据中心的应用实践以及绿色数据中心建设等领域,对数据中心建设与发展有独到见解。服务过程中针对信息技术和数据中心高度依赖的行业客户以及教育、科研、政府部门等机构,为数据中心在各行业的应用做出了贡献。
      
      编辑:Harris
      
      

    综合路透社、IDC圈等多家媒体分析报道,韩国国家信息资源管理院(简称"国情院")大田数据中心2025年9月26日20时左右发生火灾。起因是不间断电源(UPS)系统中的锂电池在搬迁准备时意外起火.