IDC资讯

质量为本、客户为根、勇于拼搏、务实创新

< 返回IDC资讯列表

短短三年数据中心多灾多难,如何保障数据安全?

发布时间:2022-12-13

数据中心的存在是为了确保计算的安全性和连续性。但是,仅在过去的三年里,数据中心就产生了十多个故障乃至灾害。数据中心系统复杂,运行和保护安全不容易。最近几年来,极端气候、技术发展等因素也给数据中心的高可靠性带来了新的挑战。我们应当如何预防和应对它?

数据中心故障“老面孔”

经过盘点最近几年来灾害事件不难发现,电力系统、制冷系统、人工操作一直是致使数据中心故障的最多见因素。

线路老化

线路老化引发火灾,常见于建成多年的数据中心,韩国SK数据中心火灾就是由于线路起火致使的。

线路故障的主要缘由是旧+热:

旧:电线外包绝缘层,正常使用寿命在10~20年,线路老化后,可能造成破损,绝缘性能降落,遇到液体或湿度过大时容易引发短路、着火。

热:根据焦耳定律,负载电流经过电线时产生热量。数据中心24小时运转,电线长时间高负荷运行情况下,高温加速线路绝缘老化,以致绝缘被击穿。

UPS/电池故障

Telstra英国数据中心火灾、北京邮电大学数据中心火灾,即由电池故障致使。

数据中心电池/UPS故障的主要缘由有过度循环放电、电池接头密封不严、链接松动、高温、高浮/低浮充电压等。铅酸电池一般寿命为5年,锂电池寿命在10年左右,随着电池使用年限的增加,性能下降,故障率也随之提升。如果保护、检查疏漏,可能未及时更换快到年限的电池。

又由于数据中心电池数量庞大,串连及并联使用,一旦一节电池故障后起火、爆炸,会蔓延造成大的灾害事故。锂电池一旦起火爆炸的危险性高于铅酸电池,灭火难度也更大。例如2021年北京市丰台区西红门储能电站起火爆炸事故,就是由于电池间内磷酸铁锂电池产生内短路故障,引发电池热故障起火和分散,进而遇电气火花产生爆炸。

最近几年来锂电池利用中遭到主要疑虑即来自于此。

制冷故障

不管是紧缩机、安全阀抑或停水致使的制冷故障、制冷效力低,均会引发机房温度升高,影响装备性能,如果不能及时处理,机房温度延续上升,或因过热宕机,服务中断、硬件破坏、数据丢失。

人工误操作

平常巡检是数据中心的重要保障手段,但操作不当也是造成故障的重要缘由。此前多起数据中心起火就是由于人员操作不当产生电火花,引燃易燃材料致使的,也有数据中心在保护保养时未严格履行工作手册,致使电池短路等故障。

致使数据中心业务中断因素占比统计

来源:Uptime Institute2021年全球数据中心调查报告

研究机构Uptime发布的《2021年全球数据中心调查报告》也说明,致使数据中心业务中断的因素中,电力、网络、制冷占前三位。

越发展越“危险”  数据中心那些新挑战

最近几年来极端气候、疫情、技术发展等,也为数据中心的高可靠性带来了新的挑战。忽视极小几率致使被淹、宕机的多起前车之鉴在前,从业人员面对这些新变数,一定要提高警惕性。笔者根据此前访问与了解,试总结以下:

1、数据中心范围愈大,运维管理愈难。

数据中心建设显现范围化、集约化趋势,最近几年来新建项目少见小型、中型数据中心,多为大型、超大型数据中心园区,分多期建设完成。

而数据中心体系庞大管理复杂,暖通系统、电力系统、弱电系统、消防系统……一个1000机柜的数据中心就具有测点10万+,范围增加的同时,巡检耗时、运维故障排查难度成倍提升,容易造成疏漏和盲点,进而引发安全事故。

2、高功率高密度,应急时间被紧缩。

正如Azure美东数据中心的灾害事件,当数据中心冷却出现故障,机房温度不断升高,服务器出现异常,如果运维团队不能及时排障处理,高温致使将服务器宕机、装备破坏。

最近几年来,数据中心的服务器单机柜功率密度不断提高,服务器高负荷下工作产生的热量随之增大,机房升温迅速,留给运维的应急处理时间被紧缩。有从业者曾表示“现在5分钟机房温度可以升高3~5℃,20分钟内温度将升高约15~20℃,如果说曾留给运维团队定位、处理故障的应急时间有30分钟以上,现在已紧缩到10分钟乃至更短。”

3、极端气候频发

最近几年来全球极端天气频发,干旱、暴雨、高温,很多地区遭受未有过的反常天气,给数据中心可靠性带来新挑战。

暴雨致使城市汛情

例如英国属温带海洋性气候,最高温不会超过32℃,但今年却到达惊人的42℃,“极端高温天气远超数据中心运营者设计之初的预期”。一样,我国北方很多地区年均降雨量不高,因此没有完善的汛情应对预案,部份数据中心连抽水泵等物质都储备不足,也没有斟酌到积水时供油运输问题。今年,四川等地遭受罕见大旱,水电来水偏枯,城市开启限电措施,部的数据中心只能长时间依托柴发运转。

4、疫情变量

当所在地出现疫情感染时,或区域封控时,怎样保证数据中心正常运转,同时保护好数据中心工作人员的健康安全?从业务连续性到客户紧急需求的处理,从运维团队配置、人员衣食住行,到内部防疫防感染、进出限制措施,都需要数据中心构成完善制度,避免紧急情况下措手不及,引发宕机或大面积感染事件。

从选址设计到买保险  数据中心安全面面重

说过这么多难难案例与故障因素,需要强调的是,灾害预防和应对绝不单单是数据中心的事。数据中心的高可靠性,需要多方共同参与构建,正如木桶效应,任何一处短板都会造成疏漏。

选址计划设计关注危险因素

 自然资源是数据中心选址计划时的重要斟酌因素,如终年低温、气候干燥、水资源丰富、水电充分,这些都会给数据中心运营带来优势。

但是,全球极端天气频发,各区域气候也逐步产生改变。正如今夏伦敦某数据中心负责人所说,“数据中心在设计之初就斟酌到忍受高温的问题,但是目前的极端高温天气已远远超越了许多数据中心运营者在设计之初的预期。”

因此,数据中心的选址设计一定要要斟酌更多气候变量,终年凉爽地区可能面临高温,干旱地区也许遭受暴雨,水电充分多路市电接入,电力也绝非保障无虞,极端天气还可能使当地少见的山火、滑坡等意外几率大大提升。

曾不可能出现的气候问题,需要被数据中心设计方和运营方加入斟酌,避免出现河南汛情和伦敦高温致使的宕机,等“超越设计预期”的情况。

基础设施共同构建安全

各系统装备厂商可以通过量方面行动助力数据中心安全,下降或预防灾害可能性。

首先,不断提升装备性能。例如制冷系统厂商美的楼宇科技推出的多款制冷解决方案,针对当前数据中心散热高、空调能耗高等痛点,有效提升制冷效力。

其次,利用新技术、研发新产品,补齐数据中心故障短板,提高整体安全性。例如克莱沃在IDCC大会上所介绍小母线和智能PDU在数据中心的利用,产品更耐高温、避免电涌侵袭,减少电线变形和电路破坏,提高供配电系统稳定性。

锰酸锂LMO针刺测试

第三,在利用新技术推出新产品前,做好新技术的安全保障,展开严格的可靠性测实验证。例如华为数字能源对SmartLi智能锂电产品在实验室进行热插拔测试并联不均流度,在TUV机构进行针刺实验,分别测试三元锂、锰酸锂和磷酸铁锂电芯针刺后的反应,视察是否是会热失控起火,验证其电池产品的稳定性。

第四,从装备层面实现智能化、数字化,推出智能管理系统,实现装备可视化运行、故障预测、定位,下降运维难度与压力,进而减少疏漏。例如中兴通讯的iDCIM数据中心智能管理系统,支持百万级测点接入,多维可视,支持机器人巡检,可以实现数据中心基础设施全生命周期管理。

自主研发 提高可靠性

最了解数据中心的,或数据中心。

除使用各类厂商的装备和管理系统,也有走在行业前列的数据中心,将运营经验积累沉淀成体系,根据需求自己研发管理系统、软硬件,用于提高可靠性。

例如万国数据基于运营八十几座数据中心的需求,构建了三层的全球数据中心运营架构,还在IDCC2021上推出了第一代Smart DC,其中智能运营方面,基于运营实践及自研软硬件协同,构成X-BP系列产品,打造更懂数据中心的电机系统,实现全栈智能管理、最优化TCO。

灾备与两地三中心

“不要把鸡蛋放在一个篮子里”,这句名言是容灾备份、两地三中心的最好广告词。由于政策及合规性要求,金融用户特别关注容灾备份。

据悉,自去年起多个银行、金融机构启动了灾备数据中心的建设计划,其中和林格尔等“东数西算”节点是热门选址地。中国银行、中国农业银行、中国建设银行等多个金融机构已在和林格尔布局建设数据中心。

买保险

数据中心承载越来越重要,直接关系社会民生,一旦产生灾害,对数据中心及用户都将带来巨大的金钱和形象损失,保险就成了最后的保障。

据悉,数据中心保险可以分为三类:

第一类财产损失保险

属于传统保险,财产险保险公司都可以提供该服务,只是估值方式不同,如何评估资产和损失。这类保险偏向于物理损失,一般以火灾、地震等自然灾害等情况比较多,基本上数据中心都有租赁这类保险。

第二类,偏损失类的网络安全保险

一般财产保险公司或责任险保险公司专门有这类产品。有别于财产保险偏向于物理的损失,网络安全保险偏向于遭到外部攻击,如DOS、安全攻击等造成了装备和软硬件损失,产生的维修保护费用。

第三类,偏责任类的网络安全还是数据安全保险

这类属于新型保险,保的是数据中心企业本身的责任,实际是给客户的——如果数据中心遭受攻击等,客户数据被泄漏、丢失、破坏、篡改和软硬件遭受侵害,有明确左证下会取得赔付。网络安全保险主险常常还会有营业中断损失保险、隐私泄漏责任保险、网络勒索保险等附加险。

某保险公司针对数据中心的保险方案

因此,数据中心保险的构成相对大家熟知的人身保险、财产保险更加复杂,企业可以找提供财产险和责任险的保险公司咨询,也能够请笔者咨询到的大童保险这类专业保险中介提供服务,订制符合需求的保险产品与承包范围。

如果数据中心租赁了保险产品,一旦出现故障、灾害事件,例如着火造成客户服务中断,是否是赔付具体要看承包的保险产品责任属性,是服务中断责任、是数据丢失责任、或信息泄漏的责任,是否是在保险范围内。总而言之,保险的租赁、责任认定和估值都比较复杂。

文章来源:中国IDC圈

TikTok千粉号购买平台:https://tiktokusername.com/