2022
我们一起努力

阿里云的香港服务器,香港机房宕机

12月25日,南都记者注意到,阿里云发布关于18日香港Region可用区C服务中断事件的说明。说明中披露,18日,相关机房冷却系统失效,包间温度逐渐升高,导致一机房触发消防系统喷淋,电源柜和多列机柜进水,部分机器硬件损坏。整个处置过程超过10个小时。阿里云表示,此次事件对很多客户的业务产生重大影响,也是阿里云运营十多年来持续时间最长的一次大规模故障。

阿里云在说明中介绍,18日9时23分,香港Region可用区C部分ECS服务器开始出现停机,触发同可用区内宕机迁移。随着温度继续升高,受影响的服务器停机数量持续增加,客户业务开始受到影响,影响面扩大到香港可用区C的EBS、OSS、RDS等更多云服务。阿里云香港可用区C的故障,没有直接影响客户在香港其他可用区运行的业务,但影响了香港Region ECS管控服务的正常使用。

对于事故原因,阿里云在说明中介绍,冷机系统故障恢复时间过长。机房冷却系统缺水进气形成气阻,影响水路循环导致4台主冷机服务异常,启动4台备冷机时因主备共用的水路循环系统气阻导致启动失败。水盘补水后,因机房冷却系统的群控逻辑,无法单台独立启动冷机,手工修改冷机配置,将冷机从群控调整为独立运行后,陆续启动冷机,影响了冷却系统的恢复时长。整个过程中,原因定位耗时3小时34分钟,补水排气耗时2小时57分钟,解锁群控逻辑启动4台冷机耗时3小时32分钟。

随着机房冷却系统失效,包间温度逐渐升高,导致一机房包间温度达到临界值触发消防系统喷淋,电源柜和多列机柜进水,部分机器硬件损坏,增加了后续恢复难度和时长。 与此同时,还存在客户在香港地域新购ECS等管控操作失败,以及故障信息发布不够及时透明等问题。

阿里云的香港服务器,香港机房宕机

阿里云表示,此次事件对很多客户的业务产生重大影响,也是阿里云运营十多年来持续时间最长的一次大规模故障。“我们要向所有受到故障影响的客户公开致歉,并尽快处理赔偿事宜。”

据南都此前报道,18日,澳门特区司法 局发布消息称,由于阿里云的香港机房节点发生故障,导致包括澳门多家网站及App自当日午时起无法访问使用。同日,阿里云就事件发布公告称,阿里云工程师已在紧急处理中。

采写:南都记者 陈燕

赞(0)
文章名称:《阿里云的香港服务器,香港机房宕机》
文章链接:https://www.fzvps.com/95622.html
本站文章来源于互联网,如有侵权,请联系管理删除,本站资源仅供个人学习交流,请于下载后24小时内删除,不允许用于商业用途,否则法律问题自行承担。
图片版权归属各自创作者所有,图片水印出于防止被无耻之徒盗取劳动成果的目的。

评论 抢沙发

评论前必须登录!